[集成学习]案例学习

幸福感预测(离散问题)

  1. 数据预处理
    异常值处理:删除明显的异常值
    对于缺失值来说:若某列缺失值过多,则无法提供更多信息,可以删去该列;对于含有部分缺失值的列,可以通过增补平均数、众数、中位数的方法补全缺失值(对于此次像问卷形式的分类问题,也可以将自己当作受访者来补全缺失值),若缺失值极少,对模型的建立影响很小,可以直接删除含有该缺失值的数据行。
    其他:若分类问题中的部分变量是连续值,可以将该变量离散化
  2. 数据增广
    分析特征之间的关系,通过数学运算增加一些对分类有影响的特征(如:悠闲指数、收入比、社会阶级等特征)
  3. 特征选择
    通过计算各个特征与目标列之间的相关性,筛选出与目标列相关性大的特征,去除那些与目标列无关的特征
  4. 特征建模
    建立lightgbm、xgboost、RandomForestRegressor随机森林等模型,对这些模型进行5折交叉验证得到结果

蒸汽量预测(连续问题)

  1. 探索数据分布
    a. 查看每个特征分别在测试集与训练集上的分布情况是否相似,若分布相似,则可以进行进一步的分析,若不相似,则删除这些特征的数据
    b. 计算各个特征之间的相关性,若相关性很小,则删除该特征
    c. 归一化:将所有特征的值映射到[0,1]之间
  2. 特征工程
    利用Box-Cox方法对数据进行变换,一定程度上减小不可观测的误差和预测变量的相关性。
  3. 模型构建
    a. 构建训练集与测试集后,找出离群值,并进行删除
  4. 集成学习

参考:
[1]https://github.com/datawhalechina/ensemble-learning

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值