机器学习算法股票投资建模毕业论文【代码+仿真】_机器学习在金融领域的应用论文+源码-CSDN博客

本文链接：https://blog.csdn.net/checkpaper/article/details/134209393

一、核心思路

本文是对财经新闻和股票市场变动之间的关系进行分析，首先要做的是对文本信息的处理，在将文本信息利用doc2vec模型进行量化以后，再使用随机森林算法对相关特征进行选择。最后利用三种不同的机器学习算法，根据提取到的文本特征来进行股票预测。
（1）目前大部分关于股票市场预测的所做的分析，都是利用股票市场上所累积的历史信息，按照时间序列的方式进行研究，而本文则是现对大量的财经新闻本文进行文本挖掘，然后用这些抽取出来的特征来对证券价格的未来走势进行判断，这为金融投资研究提供了一种新的思路。
（2）针对词向量过高的问题，引入随机森林算法对高维特征进行筛选，选出表现最好的因子，这一方面解决了数据量过多而造成训练难度加大问题，另一方面减少了用于预测的特征，从而缓解了机器学习算法中经常出现的过拟合问题，提高模型的预测性能。
（3）本文引入了支持向量机、XGBoost、神经网络等机器学习算法来构造模型预测股市波动，以传统的回归方法不同，这些机器学习算法能够挖掘出各种因子间的非线性关系，提高对数据的拟合能力。

二、模型与仿真

由于选用的新闻源通常针对的不是某一支股票，而是整个金融市场，所以很难相信从新闻中提取的信息可以预测某只股票的走势。因此，本文将预测标的集中在能够较为准确地反映整个金融市场的投资产品——沪深300指数。沪深300指数是由上海证券交易所和深证证券交易所与 2005年4月 8日联合发布的一种能够反映中国A股金融运行状况的金融指标，经常被用作投资业绩的评价标准。

利用随机森林计算出的每个文本特征的重要程度，可以看到，并非每个特征的重要程度都相同，因此本文采用最有预测效果的文本特征来当作特征因子，避免维度灾难的出现。

机器学习的准确性来自与对大量样本的训练，只有训练足够多的样本，机器学习算法才能从中挖掘到正确的规律。另外，为了保证实验结果的有效性，不能将最终要测试的数据放入模型，因此必须要将样本划分成训练集和测试集。本文将2005 年4 月8 日至2019 年12 月2 日的数据定为训练集，将2019 年12 月3日至2021 年12 月3 日的数据定为测试集，最终得到训练集样本量 3564 条，测试集样本量487 条。训练集和测试集的沪深300 指数收盘价如图

支持向量机、XGBboost、神经网络在分类任务中的性能有了明显的提升，这意味文本特征中有着能够预测股市的重要信息，由于使用的该特征还未被广泛使用，所以能够为使用这些特征的投资者带来一定程度的超额收益。
在各个机器学习算法的表现上，XGBoost 在准确率、精确率、召回率上的表现分别为0.6392，0.6015，0.5925 在所有指标上的提升最为明显，分类效果做好。从三个机器学习模型背后的原理和金融市场中的交运作情况进行分析，可得出以下两种原因：第一，XGBoost 属于一种集成学习模型，这种模型的学习过程是通过多个弱学习器进组合，相比单一模型能够缓和过拟合问题，因此在回测时能够获得较高的正确率；另外，XGBoost 相比于支持向量机和普通神经网络出现时间更短，算法更为新颖，此时市场上使用该算法的投资者或者是机构还相对较少，这也就意味着实际运用中模型的同质性相对较低，因而能够取得比其它模型效果更好的表现。