数据挖掘
五木123
这个作者很懒,什么都没留下…
展开
-
零基础入门数据挖掘 Task5 模型融合方法
模型融合1.加权融合加权融合分为三大类:1.对于回归问题或者概率形式表示的分类问题----算术平均融合(Arithmetic mean),几何平均融合(Geometric mean)2.分类问题----Bagging,投票多数决定3.综合----排序融合,log融合2.堆叠融合(stacking)以第一层多个不同模型的输出值作为第二层模型的输入,依次堆叠多层模型拟合预测。但是直接在...原创 2020-04-04 20:17:23 · 257 阅读 · 0 评论 -
零基础入门数据挖掘--Task4 建模调参
主要内容根据选用模型的特性对数据进行处理,比如线性回归对特征的要求,需要独热编码,需要归一化,处理长尾分布等等模型性能验证的的一些包的使用:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;特征选择的方法:直接、过滤、嵌入式(即通过模型输出的结果对特征进行选择,常用有带正则化的线性回归如lasso回归、Ridge回归、和决策树等进行模型...原创 2020-04-01 16:49:33 · 434 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task3 特征工程
文章目录常见方法1.异常处理2.特征归一化/标准化3.数据分桶4.缺失值处理5.特征构造6.特征筛选7.特征降维8.代码演练9.经验总结常见方法1.异常处理通过箱线图分析删除异常值BOX-COX转换(处理有偏分布): 是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。长尾截断2.特征...原创 2020-03-27 14:48:18 · 221 阅读 · 0 评论 -
数据挖掘EDA学习
数据挖掘EDA学习"""EDA-数据探索性分析1.EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。4.完成对于数据的...原创 2020-03-24 00:07:37 · 190 阅读 · 0 评论