集成学习学习笔记——数据挖掘实战流程（8）

最新推荐文章于 2021-12-02 11:32:45 发布

Baker_Young

最新推荐文章于 2021-12-02 11:32:45 发布

阅读量122

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54440493/article/details/119282660

版权

一、厘清问题

厘清特征、预测目标、损失函数、数据集

二、数据EDA

对各数据分布（pdf）做展示，对训练集测试集中分布不均的特征做删除或者其他操作
查看特征间的相关性，对那些与target相关系数小于一定阈值的特征可以酌情删除
对数据做标准化（归一化、normal化）

三、特征工程

对特征做Box-Cox变换，对非正态分布的连续性特征进行改造，同时利用QQ图去观察其是否服从正态分布。
考虑对target变量（一般是时序性且方差递增的变量）做对数变换
模型构建以及集成学习：
1. 构建train_set valid_set test_set，确定cost function
2. 删除离群值（基于简单模型的预测，对loss超过残差分布3σ的样本做筛除；也可以用Extreme Tree等方法）
3. 模型训练，参数调整（网格搜索、随机搜索）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习学习笔记——数据挖掘实战流程（8）

一、厘清问题厘清特征、预测目标、损失函数、数据集二、数据EDA对各数据分布（pdf）做展示，对训练集测试集中分布不均的特征做删除或者其他操作查看特征间的相关性，对那些与target相关系数小于一定阈值的特征可以酌情删除对数据做标准化（归一化、normal化）三、特征工程对特征做Box-Cox变换，对非正态分布的连续性特征进行改造，同时利用QQ图去观察其是否服从正态分布。考虑对target变量（一般是时序性且方差递增的变量）做对数变换模型构建以及集成学习： ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。