泰迪杯赛后总结

拖了一个月才打算写下博客,比赛结果虽然不理想,但总归学到了一些东西,还是要总结出来归纳自己所学,不然就浪费了自己辛苦准备了1个月了(拖了一个月)

  • 引言
    第一次参加数据挖掘的比赛,本来一开始想着都做不完了的,但还是硬着头皮做完了,畏难情绪一直困扰着我,我也从中总结了,不要看结果,just do it。

  • 进入正题
    首先,由于自己对于数据挖掘了解很浅显,就只是知道,通过已有的数据去预测未知的数据。而我选择的是A题,看起来嘛,比较的直接,感觉上简单一些(但这个题目的预处理数据量实在是太大了,做着做着才发现),一开始就查找相关博客和资料来寻找数据预处理的方法,由于数据分为年数据和日数据和基础数据,且年数据缺失值实在太多了,而日数据的数据量又太多了,一开始我们组就直接采用的是年数据而直接抛弃了日数据,但题目要求的是通过前七年的数据去预测第八年的数据,所以应该还是要用日数据(但日数据量实在太大,而且缺失值也不少),于是我们进行了尝试,通过拉格朗日均值法(拉格朗日法相关资料),而其中有很多的特异点,会导致过拟合的效果,而且数据量实在太大,并不怎么合适,那其他的什么均值,众数,中位数都不是很好,而删除值的话也不好(这第一步是最难的一步,到最后都没处理好,就用了年数据,这里的数据预处理是重中之重,没处理好就导致了比赛结果的拉跨)

  • 模型
    在数据预处理后,我先想的是用SVM向量机来进行分类,因为该题目的最终目的就是通过前七年的数据量来预测第八年的数据,相当于二分类问题,而SVM进行二分类的话,由于数据量过大,我就直接给略过了该方法,选用了需要大数据量的神经网络来思考该题目,由于该股票有着时间序列,而高送转(也就是题目的所求),所以我就用的是LSTM的模型来训练的,但最后还是因为数据的预处理这一块没有想到怎么很好的处理,导致了最后训练出的模型不能很好的收敛,总之就是失败的一个模型,不论怎么调参都不能收敛,最后也仓促交了,也只是小小的小结一下失败原因,还是前期工作没做好,以及后期的调参时间紧,还有时间序列的那个算法也改了很久,因为有很多支股票都需要通过前七年的数据预测第八年的,所以这个时间序列真的有点头疼。

以上,就是记录下自己可能的失败点,重在过程与收获,继续加油吧。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值