Datawhale AI 夏令营机器学习入门task3-CSDN博客

本文链接：https://blog.csdn.net/m0_74382128/article/details/140576075

task3是在task2基础上进行理解的，在特征工程和模型训练上有更丰富的方法

task3首先为我介绍了时间序列预测特征提取和分析方法，较全面的提供了时间序列的各种特征。知道了对数据进行处理的过程中有部分数据是需要注意的，要关注数据与数据之间的特征有无明显关联。可以获取数据中的关键特征，对关键特征可以进行特殊处理，如对明显异常的点进行删除，对特殊日期的标注，这些都可以帮助模型来更好的理解数据。然后是对这些特征的性质进行分类阐述，比如上面我说的就是异常点特征和特殊事件特征，对这些不同的特征用不同的方法去处理，异常点的处理方法可以是简单标记、剔除、修改。特殊事件特征可以用个指示器来使模型意识到其特殊性，根据一个时间窗口来看这个特殊事件造成了什么样的影响。这些特征与分析的方法都能提高模型对数据的理解。

然后是特征工程的优化，在task2中有历史平移特征和窗口统计特征。在task3中文档中又使用了差分特征，差分特征通过对相邻特征的变化进行判断得到数据的涨幅变化，变化趋势，文档中也提到了二阶差分等基于差分特征的更进一步的方法。在文档代码中通过将各种特征处理方式融合得到了多种特征，获取了更多、更复杂的信息，获取数据的信息更多使模型对数据的理解更多。当然也不是特征越多越好，在进行特征构建的时候要能分清楚哪些是对模型有帮助的，要有针对性的，有目的性的使模型向着需要的方向发展，这种特征对模型的帮助是巨大的。所以对特征进行各种构建在提高模型的精度上是很有帮助的，也是很费时间的，在提分路上不妨试上一试。

然后是模型的优化，task3文档中使用的是模型融合的思路，当然也有很多其它的模型优化方式，数据适用于哪种模型也是需要测试的。文档提供了两种融合方法，一个是平均融合，现将各模型进行k折交叉验证，将每个模型跑出来的较好的模型再进行平均比例的融合。第二个事stacking融合，由两层构成，第一层是基学习器组成的，第二层是以第一层的的输出作为输入训练集进行预测。stacking方法得到的结果比平均法要好一点，不过我的结果是只提高了一点，提升的有限，所以提高模型效果更好的方法应该是更换思路或者换模型。

最后文档还提供了深度学习的方法来得到模型，大致流程也和平时的差不多，对于其了解也不是很细致，就不做笔记了

那这次笔记就到此结束吧，也写不了太多了，总之想要提高模型的效果，对于特征和模型的选取和构建进行优化是主要的方法。