数据挖掘
ErrorMaker...
这个作者很懒,什么都没留下…
展开
-
数据挖掘5(模型融合)
一、学习知识点概括 模型融合可以集合各种模型,从而提高模型的准确率 二、学习内容 1.投票融合: Voting即投票机制,分为软投票和硬投票两种,其原理采用少数服从多数的思想。 hard_vote = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), ('svc', clf3)], voting='hard') eclf = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), (原创 2021-09-15 17:36:36 · 229 阅读 · 0 评论 -
数据挖掘4(建模调参)
一、学习知识点概括 特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维 二、学习内容 1.内存优化: 通过调整每列的数据类型较少内存占用 if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max: df[col] = df[col].astype(np.int8) 2.长尾处理: 通过线性回归得到model,利用mode原创 2021-08-29 13:54:14 · 191 阅读 · 0 评论 -
数据挖掘笔记3(特征工程)
一、学习知识点概括 特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维 二、学习内容 1.异常值处理: 箱线图,3-sigma,box-cox处理有偏分布,长尾截断 2.缺失值处理: 不处理(针对树模型),删除(缺失太多),填充法,分箱法 3.数据分桶,独热编码: 针对数值型数据分桶,针对无大小关系的类别型数据进行独热编码 4.特征构造: 时间特征,地理特征(分箱),各种特征组合等等 5.特征筛选 过滤法:分类问题通常用卡方检验,回归问题用相关性分原创 2021-08-25 21:00:36 · 175 阅读 · 0 评论 -
数据挖掘笔记2(EDA)
一、学习知识点概括 EDA探索数据的过程是建模之前必不可少的,通过eda更好的了解数据的分布,数据的关系等等。 二、学习内容 1.数据总览:head(),info()查看类型和缺失信息,describe()查看统计信息 2.了解数据缺失情况,异常值检测 3.总体分布情况(无界约翰逊分布),查看skewness and kurtosis,查看预测值的具体频数 4.特征分为数据特征和类别特征: 数字特征: 相关性分析 查看几个特征得 偏度和峰值 每个数字特征得分布可视化 数字特征相互之间的关系可视化 多变量互相原创 2021-08-24 21:02:17 · 157 阅读 · 0 评论 -
数据可视化与特征工程高效的图表
1.sns.FacetGrid():可以一次性画出每个特征的分布 2.sns.pairplot():可视化各个属性之间的关系原创 2021-08-24 17:47:33 · 98 阅读 · 0 评论 -
数据挖掘笔记1
一、学习知识点概括 数据挖掘之前需要充分理解需求和实际情况,对于题目要有深刻的理解,以便于开展接下来的挖掘工作。 二、学习内容 对于赛题的理解,评价指标的认识,数据的特征的分析,以及列举挖掘过程的大纲。 三、学习问题与解答 对于数据的特征理解相对比较繁琐与困难,不同领域的数据需要有相应的背景知识才有利于充分理解数据,以便于后续的特征工程。但是这一过程往往较耗时,需要仔细反复的推敲。 四、学习思考与总结 拿到数据或者题目后第一时间要做的不是急于建模,而是要理解数据,增强对数据的认识。 ...原创 2021-08-24 15:42:41 · 112 阅读 · 0 评论