- 博客(5)
- 收藏
- 关注
原创 pandas 缺失值与空值处理之df.fillna()失败问题
使用的pandas版本使用pandas读取数据import pandas as pdpath = 'D:/Desktop'data = pd.read_excel(path + 'a.xlsx')print(data['男smoke'].head())使用pd.fillna()来处理缺失值(数据是我做过map映射的结果)使用众数填补缺失值data['男smoke'].fillna(data['男smoke'].mode(), inplace=True)你会发现这个函
2021-07-02 11:04:26 5856 5
原创 随机森林和Adaboost对比
随机森林和adaboost算法都可以用来分类,它们都是优秀的基于决策树的组合算法。相对于经典线性判别分析,其分类效果一般要好很多。boosting方法提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gradient boost...
2020-03-14 10:37:03 7692
原创 spark性能优化点(1)
1. 分配更多的资源1.1 分配哪些资源1.2 在哪里可以设置这些资源1.3 参数调节到多大,算是最大分配更多的资源:它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行...
2020-03-10 08:42:33 126
原创 spark入门到精通(1)
Spark学习第一天了解spark,以及一些简单的基础1.学习目标 了解spark相关背景以及其框架特点 掌握搭建spark集群(尤其是高可用集群搭建) (重点) 掌握spark应用程序开发以及运行 (重点) 掌握Spark框架中的角色 (重点) 2.Spark基础2.1什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009...
2020-02-26 19:44:18 542
转载 机器学习中 常见问题汇总(一)
深度学习框架TensorFlow中都有哪些优化方法?梯度下降算法针对凸优化问题原则上是可以收敛到全局最优的,因为此时只有唯一的局部最优点。而实际上深度学习模型是一个复杂的非线性结构,一般属于非凸问题,这意味着存在很多局部最优点(鞍点),采用梯度下降算法可能会陷入局部最优,这应该是最头疼的问题。这点和进化算法如遗传算法很类似,都无法保证收敛到全局最优。因此,我们注定在这个问题上成为“高级炼丹师”...
2018-09-15 10:12:35 6396
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人