菜鸟机器学习随笔（二）

最新推荐文章于 2024-07-21 18:01:17 发布

souriretina

最新推荐文章于 2024-07-21 18:01:17 发布

阅读量537

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/souriretina/article/details/79488087

版权

博客讲述了作者在一场工业大数据竞赛中的经历，复赛和决赛中预测风机齿形带断裂点。面对新的测试数据，作者将问题分解为分类和回归两部分，使用随机森林分类和岭回归进行建模，最终获得亚军并分享了坚持的重要性。

摘要由CSDN通过智能技术生成

这篇博客记录下中国工业大数据竞赛复赛以及决赛情况

9月份开始，进入复赛，比赛规则发生了变化，组委会提供了8组测试数据，每组大概11000左右，我们需要预测每组数据接下来46285个周期内风机齿形带发生断裂的点M，若是M>46286,则风机齿形带没有发生断裂，同理，则发生断裂，没有给新的训练集，目前只有初赛时提供的5台风机的数据。

先对测试集进行解读，可以知道每个测试集数据都是从不同的风机的数据集中截取的一部分。

一开始我们仍然是用初赛时的方法，用那三台有故障的风机数据集分别训练模型，对测试集进行测试，想以此来测试测试集是处于风机数据集中哪一段，发现效果非常差，我们也有将测试集的特征与训练集的特征进行比较，也没有规律可循，这就变成一个难点问题。

后来想到将问题分解成分类+回归问题，重新构建数据集，先通过分类算法判别测试集中可能有发生断裂的测试集，然后利用回归对M进行预测。

分类数据集的构建：

在分类模块，使用的是随机森林分类算法，因为随机森林在数据集上的表现最好，两个随机性的引入，可以有效避免过拟合的风险，有很好的抗噪声能力，随机森林能够处理高维度数据，并且自动进行特征选择，训练时间快。

1、先对原始数据集进行min-max归一化，对于有故障的23、29号风机中，利用滑动窗口的方法在区间[t0-46286,t0]提取数据集，以11000为窗口，以47为步长，从t0开始向左滑动，每次滑

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。