Datawhale AI 夏令营 机器学习入门task3

task3是在task2基础上进行理解的,在特征工程和模型训练上有更丰富的方法

task3首先为我介绍了时间序列预测特征提取和分析方法,较全面的提供了时间序列的各种特征。知道了对数据进行处理的过程中有部分数据是需要注意的,要关注数据与数据之间的特征有无明显关联。可以获取数据中的关键特征,对关键特征可以进行特殊处理,如对明显异常的点进行删除,对特殊日期的标注,这些都可以帮助模型来更好的理解数据。然后是对这些特征的性质进行分类阐述,比如上面我说的就是异常点特征和特殊事件特征,对这些不同的特征用不同的方法去处理,异常点的处理方法可以是简单标记、剔除、修改。特殊事件特征可以用个指示器来使模型意识到其特殊性,根据一个时间窗口来看这个特殊事件造成了什么样的影响。这些特征与分析的方法都能提高模型对数据的理解。

然后是特征工程的优化,在task2中有历史平移特征和窗口统计特征。在task3中文档中又使用了差分特征,差分特征通过对相邻特征的变化进行判断得到数据的涨幅变化,变化趋势,文档中也提到了二阶差分等基于差分特征的更进一步的方法。在文档代码中通过将各种特征处理方式融合得到了多种特征,获取了更多、更复杂的信息,获取数据的信息更多使模型对数据的理解更多。当然也不是特征越多越好,在进行特征构建的时候要能分清楚哪些是对模型有帮助的,要有针对性的,有目的性的使模型向着需要的方向发展,这种特征对模型的帮助是巨大的。所以对特征进行各种构建在提高模型的精度上是很有帮助的,也是很费时间的,在提分路上不妨试上一试。

然后是模型的优化,task3文档中使用的是模型融合的思路,当然也有很多其它的模型优化方式,数据适用于哪种模型也是需要测试的。文档提供了两种融合方法,一个是平均融合,现将各模型进行k折交叉验证,将每个模型跑出来的较好的模型再进行平均比例的融合。第二个事stacking融合,由两层构成,第一层是基学习器组成的,第二层是以第一层的的输出作为输入训练集进行预测。stacking方法得到的结果比平均法要好一点,不过我的结果是只提高了一点,提升的有限,所以提高模型效果更好的方法应该是更换思路或者换模型。

最后文档还提供了深度学习的方法来得到模型,大致流程也和平时的差不多,对于其了解也不是很细致,就不做笔记了

那这次笔记就到此结束吧,也写不了太多了,总之想要提高模型的效果,对于特征和模型的选取和构建进行优化是主要的方法。

  • 8
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值