泰迪杯赛后总结

最新推荐文章于 2023-01-09 22:17:30 发布

Lemo0on丶

最新推荐文章于 2023-01-09 22:17:30 发布

阅读量479

点赞数 2

文章标签：数据挖掘算法神经网络人工智能机器学习

本文链接：https://blog.csdn.net/qq_45434706/article/details/107125521

版权

拖了一个月才打算写下博客，比赛结果虽然不理想，但总归学到了一些东西，还是要总结出来归纳自己所学，不然就浪费了自己辛苦准备了1个月了（拖了一个月）

引言
第一次参加数据挖掘的比赛，本来一开始想着都做不完了的，但还是硬着头皮做完了，畏难情绪一直困扰着我，我也从中总结了，不要看结果，just do it。
进入正题
首先，由于自己对于数据挖掘了解很浅显，就只是知道，通过已有的数据去预测未知的数据。而我选择的是A题，看起来嘛，比较的直接，感觉上简单一些(但这个题目的预处理数据量实在是太大了，做着做着才发现），一开始就查找相关博客和资料来寻找数据预处理的方法，由于数据分为年数据和日数据和基础数据，且年数据缺失值实在太多了，而日数据的数据量又太多了，一开始我们组就直接采用的是年数据而直接抛弃了日数据，但题目要求的是通过前七年的数据去预测第八年的数据，所以应该还是要用日数据（但日数据量实在太大，而且缺失值也不少），于是我们进行了尝试，通过拉格朗日均值法（拉格朗日法相关资料），而其中有很多的特异点，会导致过拟合的效果，而且数据量实在太大，并不怎么合适，那其他的什么均值，众数，中位数都不是很好，而删除值的话也不好（这第一步是最难的一步，到最后都没处理好，就用了年数据，这里的数据预处理是重中之重，没处理好就导致了比赛结果的拉跨）
模型
在数据预处理后，我先想的是用SVM向量机来进行分类，因为该题目的最终目的就是通过前七年的数据量来预测第八年的数据，相当于二分类问题，而SVM进行二分类的话，由于数据量过大，我就直接给略过了该方法，选用了需要大数据量的神经网络来思考该题目，由于该股票有着时间序列，而高送转（也就是题目的所求），所以我就用的是LSTM的模型来训练的，但最后还是因为数据的预处理这一块没有想到怎么很好的处理，导致了最后训练出的模型不能很好的收敛，总之就是失败的一个模型，不论怎么调参都不能收敛，最后也仓促交了，也只是小小的小结一下失败原因，还是前期工作没做好，以及后期的调参时间紧，还有时间序列的那个算法也改了很久，因为有很多支股票都需要通过前七年的数据预测第八年的，所以这个时间序列真的有点头疼。

以上，就是记录下自己可能的失败点，重在过程与收获，继续加油吧。

Lemo0on丶

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
泰迪杯赛后总结

拖了一个月才打算写下博客，比赛结果虽然不理想，但总归学到了一些东西，还是要总结出来归纳自己所学，不然就浪费了自己辛苦准备了1个月了（拖了一个月）引言第一次参加数据挖掘的比赛，本来一开始想着都做不完了的，但还是硬着头皮做完了，畏难情绪一直困扰着我，我也从中总结了，不要看结果，just do it。进入正题首先，由于自己对于数据挖掘了解很浅显，就只是知道，通过已有的数据去预测未知的数据。而我选择的是A题，看起来嘛，比较的直接，感觉上简单一些(但这个题目的预处理数据量实在是太大了，做着做着才发现）
复制链接

扫一扫