天池智能工业大赛大佬们的思路（需要再看）

最新推荐文章于 2022-03-23 19:05:06 发布

hasy_qiu

最新推荐文章于 2022-03-23 19:05:06 发布

阅读量1.3k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hasy_qiu/article/details/79266543

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

打酱油参加了天池工业AI大赛1，当然没拿到奖，看决赛答辩直播时见识到了大佬们的各种思路，真是大开眼界。记录一下，留给以后参考。

1. 特征构造

这个是相当重要的
第一名那个女孩子并没有用什么高深的方法，但是对特征挖掘的特别好，并且提到我们可能要 “人工”智能，即是人为创造数据。1）通过每个特征原始值与均值的差异，差异的绝对值构造。2）通过可能特征的四则运算构造特征（当然，这是剔除掉部分原有特征后进行的，否则维度也太大了）。

2. 抗过拟合

由于大家主要使用的是皮尔森相关系数筛选的特征，那么确定相关系数(实际使用的是相关系数的绝对值)阈值就尤为重要。有个男孩子发现线下cv值并不随着阈值线性变化，而是表现出W型的变化趋势，即mse在两个阈值的时候都较低。所以，他分别使用这两个阈值标准筛选得到的训练数据建模、预测，对这两个模型融合（有可能直接用的平均，我忘记了）。

另外一个团队使用了深度学习的方法来做，原理可能是添加随机噪声什么的，具体我又忘记了。

3. 缺失值处理

其中一个男生使用的确实值处理方法可能有助于提高模型表现，他没有使用均值或中位数对缺失值进行处理，而是未对缺失值进行填充，使用了允许缺失值存在的xgboost模型。此外，有一些特征值为“0”的数据经判断后应该是机器上传过程中出现了错误等，他也把这些转化为了缺失值。

https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.6b7bd780QsjpB1&raceId=231633 ↩

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
天池智能工业大赛大佬们的思路（需要再看）

打酱油参加了天池工业AI大赛1，当然没拿到奖，看决赛答辩直播时见识到了大佬们的各种思路，真是大开眼界。记录一下，留给以后参考。1. 特征构造这个是相当重要的第一名那个女孩子并没有用什么高深的方法，但是对特征挖掘的特别好，并且提到我们可能要 “人工”智能，即是人为创造数据。1）通过每个特征原始值与均值的差异，差异的绝对值构造。2）通过可能特征的四则运算构造特征（当然，这是剔除掉
复制链接

扫一扫

专栏目录

hasy_qiu CSDN认证博客专家 CSDN认证企业博客

码龄12年

10: 原创

133万+: 周排名

165万+: 总排名

4万+: 访问

: 等级

343: 积分

4: 粉丝

3: 获赞

1: 评论

18: 收藏

私信

关注

热门文章

分类专栏

最新评论

天池智能工业大赛大佬们的思路（需要再看）
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客真的很有启发性。我觉得可以继续写关于天池智能工业大赛的技术实践经验，分享自己的思路和做法，特别是在数据处理和模型优化方面的经验，这样的技术文章对其他用户也会非常有帮助。相信下一篇博客会有更多读者关注和支持！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。