https://tianchi.aliyun.com/competition/entrance/231693/introduction
偶然看到一句话:最重要的是提特征,特征决定上限,模型只是无限逼近上限。
版本记录:
1. result-11.6-v1.txt---------svr, KRR2, lgbm 0.115
2. result-11.11-v1.txt ---------svr, KRR2, lgbm, nn 0.115
3. result-11.11-v2.txt---------svr, KRR2, line, lasso ?
4. result-11.13-v4.txt--------- 0.1514
5. result-11.13-v3.txt---------0.85
代码如下:
1、2、3代码为:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.3f9274ff5jgjLC&postId=60069
4代码为:https://blog.csdn.net/Soft_Po/article/details/90291908
5代码为:https://blog.csdn.net/yili_sha11/article/details/99999795
0.115模型流程:
1. 导入训练集、测试集
2.去掉异常特征"V5", "V9", "V11", "V17", "V22", "V28"(测试集和训练集特征分布不同)
3.归一化之最小最大值标准化-MinMaxScaler,所有值归一化为0到1
4.V0、V1、V6、V7、V8取值变成exp(x),V30取值变成log1p
5.数据集的标准化,scaled之后的数据零均值,单位方差
6.计算数据偏度(???)
7.特征选择。方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。
https://blog.csdn.net/weixin_39938915/article/details/83040594
8. 选择最佳的18个特征。特征选择之SelectKBest: 返回k个最佳特征。
9. 构建svr, line, lasso, ENet, KRR1, KRR2, lgbm, xgb, nn模型进行训练。
10.模型集成。
接下来思路:在上边代码的基础上按照1st提供的思路调整特征提取方式。
1. 原始svr, KRR2, line, lasso上的结果: 0.1280 (0.0224) 测试集上0.1172
2. svr, KRR2, line, lasso+去掉相关度小的特征结果:0.1280 (0.0224)
3. svr, KRR2, lgbm, nn+去掉相关度小的特征结果:0.1237 (0.0258)
4.