数据挖掘
ErrorMaker...
这个作者很懒,什么都没留下…
展开
-
数据挖掘5(模型融合)
一、学习知识点概括模型融合可以集合各种模型,从而提高模型的准确率二、学习内容1.投票融合:Voting即投票机制,分为软投票和硬投票两种,其原理采用少数服从多数的思想。hard_vote = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), ('svc', clf3)], voting='hard')eclf = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), (原创 2021-09-15 17:36:36 · 247 阅读 · 0 评论 -
数据挖掘4(建模调参)
一、学习知识点概括特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维二、学习内容1.内存优化:通过调整每列的数据类型较少内存占用if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max: df[col] = df[col].astype(np.int8)2.长尾处理:通过线性回归得到model,利用mode原创 2021-08-29 13:54:14 · 197 阅读 · 0 评论 -
数据挖掘笔记3(特征工程)
一、学习知识点概括特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维二、学习内容1.异常值处理:箱线图,3-sigma,box-cox处理有偏分布,长尾截断2.缺失值处理:不处理(针对树模型),删除(缺失太多),填充法,分箱法3.数据分桶,独热编码:针对数值型数据分桶,针对无大小关系的类别型数据进行独热编码4.特征构造:时间特征,地理特征(分箱),各种特征组合等等5.特征筛选过滤法:分类问题通常用卡方检验,回归问题用相关性分原创 2021-08-25 21:00:36 · 181 阅读 · 0 评论 -
数据挖掘笔记2(EDA)
一、学习知识点概括EDA探索数据的过程是建模之前必不可少的,通过eda更好的了解数据的分布,数据的关系等等。二、学习内容1.数据总览:head(),info()查看类型和缺失信息,describe()查看统计信息2.了解数据缺失情况,异常值检测3.总体分布情况(无界约翰逊分布),查看skewness and kurtosis,查看预测值的具体频数4.特征分为数据特征和类别特征:数字特征:相关性分析查看几个特征得 偏度和峰值每个数字特征得分布可视化数字特征相互之间的关系可视化多变量互相原创 2021-08-24 21:02:17 · 166 阅读 · 0 评论 -
数据可视化与特征工程高效的图表
1.sns.FacetGrid():可以一次性画出每个特征的分布2.sns.pairplot():可视化各个属性之间的关系原创 2021-08-24 17:47:33 · 105 阅读 · 0 评论 -
数据挖掘笔记1
一、学习知识点概括数据挖掘之前需要充分理解需求和实际情况,对于题目要有深刻的理解,以便于开展接下来的挖掘工作。二、学习内容对于赛题的理解,评价指标的认识,数据的特征的分析,以及列举挖掘过程的大纲。三、学习问题与解答对于数据的特征理解相对比较繁琐与困难,不同领域的数据需要有相应的背景知识才有利于充分理解数据,以便于后续的特征工程。但是这一过程往往较耗时,需要仔细反复的推敲。四、学习思考与总结拿到数据或者题目后第一时间要做的不是急于建模,而是要理解数据,增强对数据的认识。...原创 2021-08-24 15:42:41 · 116 阅读 · 0 评论
分享