天池比赛:工业蒸汽量预测

本文介绍了作者参加天池比赛时,针对工业蒸汽量预测的建模过程。通过去除异常特征、数据预处理、特征选择及模型训练,包括SVR、KRR、LGBM等,实现了模型性能提升。后续计划继续优化特征提取策略。
摘要由CSDN通过智能技术生成

https://tianchi.aliyun.com/competition/entrance/231693/introduction

偶然看到一句话:最重要的是提特征,特征决定上限,模型只是无限逼近上限。

版本记录:

1. result-11.6-v1.txt---------svr, KRR2, lgbm 0.115

2. result-11.11-v1.txt ---------svr, KRR2, lgbm, nn 0.115

3. result-11.11-v2.txt---------svr, KRR2, line, lasso ?

4. result-11.13-v4.txt--------- 0.1514

5. result-11.13-v3.txt---------0.85

代码如下:

1、2、3代码为:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.3f9274ff5jgjLC&postId=60069

4代码为:https://blog.csdn.net/Soft_Po/article/details/90291908

5代码为:https://blog.csdn.net/yili_sha11/article/details/99999795

0.115模型流程:

1. 导入训练集、测试集

2.去掉异常特征"V5", "V9", "V11", "V17", "V22", "V28"(测试集和训练集特征分布不同)

3.归一化之最小最大值标准化-MinMaxScaler,所有值归一化为0到1

4.V0、V1、V6、V7、V8取值变成exp(x),V30取值变成log1p

5.数据集的标准化,scaled之后的数据零均值,单位方差

6.计算数据偏度(???)

7.特征选择。方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。

https://blog.csdn.net/weixin_39938915/article/details/83040594

8. 选择最佳的18个特征。特征选择之SelectKBest: 返回k个最佳特征。

9. 构建svr, line, lasso, ENet, KRR1, KRR2, lgbm, xgb, nn模型进行训练。

10.模型集成。

接下来思路:在上边代码的基础上按照1st提供的思路调整特征提取方式。

1. 原始svr, KRR2, line, lasso上的结果: 0.1280 (0.0224) 测试集上0.1172

2. svr, KRR2, line, lasso+去掉相关度小的特征结果:0.1280 (0.0224) 

3. svr, KRR2, lgbm, nn+去掉相关度小的特征结果:0.1237 (0.0258)

4. 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值