集成学习 Task08 案例学习

最新推荐文章于 2024-11-09 16:57:04 发布

AnnoraJiao

最新推荐文章于 2024-11-09 16:57:04 发布

阅读量216

点赞数

分类专栏：集成学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42120499/article/details/119282080

版权

本文通过两个案例探讨集成学习在实际问题中的应用。案例一关注幸福感预测，利用139维特征对幸福感进行分类，并进行数据预处理、特征工程和模型训练。案例二涉及蒸汽量预测，基于脱敏后的工业传感器数据，通过数据探索、特征选择和Box-Cox变换，建立预测模型。主要使用的模型包括lightGBM和xgboost。

摘要由CSDN通过智能技术生成

一、案例一（幸福感预测）

1. 问题描述

比赛的数据使用的是官方的《中国综合社会调查（CGSS）》文件中的调查结果中的数据，其共包含有139个维度的特征，包括个体变量（性别、年龄、地域、职业、健康、婚姻与政治面貌等等）、家庭变量（父母、配偶、子女、家庭资本等等）、社会态度（公平、信用、公共服务）等特征。

2.数据

使用以上 139 维的特征，使用 8000 余组数据进行对于个人幸福感的预测（预测值为1，2，3，4，5，其中1代表幸福感最低，5代表幸福感最高）

对于数据中的连续出现的负数值进行处理。
填充缺失值，将缺失值补全，使用fillna(value)；或者取众数等

数据增广：添加一些特证

One-hot编码

3.建模

lightGBM决策树

已经训练完的lightGBM的模型进行特征重要性的判断以及可视化

#lightGBM决策树
lgb_263_param = {
   
'num_leaves': 7, 
'min_data_in_leaf': 20, #叶子可能具有的最小记录数
'objective':'regression',
'max_depth': -1,
'learning_rate': 0.003,
"boosting": "gbdt", #用gbdt算法
"feature_fraction": 0.18, #例如 0.18时，意味着在每次迭代中随机选择18％的参数来建树
"bagging_freq": 1,
"bagging_fraction": 0.55, #每次迭代时用的数据比例
"bagging_seed": 14,
"metric": 'mse',
"lambda_l1": 0.1,
"lambda_l2": 0.2, 
"verbosity": -1}
folds = StratifiedKFold(n_splits=5, shuffle=True, random_state=4)   #交叉切分：5
oof_lgb_263 = np.zeros(len(X_train_263))
predictions_lgb_263 = np.zeros(len(X_test_263))

for fold_, (trn_idx, val_idx) in enumerate(folds.split(X_train_263, y_train)):

    print("fold n°{}".format(fold_+1