基于LSTM 的股票投资模型毕业论文

一、核心思路

在股票预测的相关研究中,以增加数据源的方式以达到提升预测效果是一个重要的研究方向。本文也基于这一逻辑,考虑增加数据源,使用股价相关基础数据、金融文本数据(含金融新闻和股吧评论),从变量角度,构建多类股票特征以提升股票短期趋势预测的准确性。从算法角度,本文充分结合了随机森林,XGBoost 和LSTM 算法各自的优越性,基于LSTM 算法,并使用随机森林算法,XGBoost 算法对LSTM 算法的预测结果进行进一步的修正,以提升预测效果。
随着互联网的发展,投资者能够更加自由和便利地在网络上发表自己的观点和看法。目前国内股市投资者中散户较多,而其并不具备专业的投资相关的知识体系,难以有效把控收益和风险,易产生不当投资行为。基于行为金融学的投资者情绪能够对股市有重要影响这一观点,对于中国股市和股民的实际情况来说,引入金融文本信息以对投资者情绪进行正确的度量进而提高股市趋势预测的准确度,帮助投资者有效规避风险,实现投资效益,充分发挥股市这一重要经济工具的积极作用,促进我国经济社会发展。

首先本文使用股票历史交易数据并选择LSTM 进行训练,LSTM 由于其自身记忆性特点可以用来作为研究股票预测问题的基础算法。其次提出增加金融文本数据相关的特征信息作为输入数据可以影响预测股价变化这一设想,从变量层面分为股价相关基础数据层面和金融文本数据层面,然后,对比分析只使用股价相关基础数据层面的变量和加入金融文本层面变量后在 LSTM, 随机森林,XGBoost 中的表现。实验结果显示加入了金融文本变量后,LSTM 回归预测的效果,随机森林和 XGBoost 分类预测的效果都
有提升,证明了增加金融文本数据变量可以提高股票预测结果这一设想。基于前者的结论,本文加入金融文本层面变量,结合 LSTM, 随机森林,XGBoost 各自的优势和特性,对原LSTM 的预测结果进行进一步的修正,在本文中称为LSTM 区间修正算法,结果发现,LSTM 区间修正算法的预测结果在 LSTM 预测结果的基础之上有了进一步的提升,最后,选用4 种算法,LSTM 区间修正算法,LSTM 算法,随机森林回归算法,XGBoost回归算法,分别用其预测结果进行投资选股行为,对比收益发现,本文提出的LSTM 区间修正算法收益最佳,LSTM 收益次之,随机森林和 XGBoost 收益较差。也不难发现。 LSTM 区间算法是在LSTM 的基础之上进行微调的结果,或仍可归为LSTM 的范畴,可以在一定程度上说明,LSTM 在进行金融时序数据分析,或进行金融数据预测时,确有一定的优越性,与已有的文献研究结果保持一致。

二、建模与仿真

LSTM,全称为长短期记忆神经网络,在 1997 年被 Hochreiter 和 Schmidhuber 首次提出。LSTM 在处理时间序列数据信息方面有着较好的效果,能够有效克服 RNN 存在梯度爆炸或梯度消失等方面的缺陷,LSTM 神经网络采用控制门的机制,由记忆细胞、输入门、输出门、遗忘门组成。xt 表示t 时刻的输入,ht−1 表示t-1 时刻细胞的状态值,σ代表sigmod 激活函数,tanh 代表tanh 激活函数。在tanh 激活函数的作用下

自变量:以每只成份股t-50,t-49,...,t-1 共计50 个工作日的股价相关基础数据层面等12 个变量,使用 PCA 主成分分析方法,选取大于 1% 的变量,共 9 个主成分变量。
因变量:第 t 个工作日的股票价格数据
建模方法:LSTM 回归算法,共使用5 层神经网络,前4 层使用LSTM 神经网络层,神经元的数量均设立为 50 个,激活函数使用默认激活函数 tanh,dropout 参数均设置为0.2,最后一层及输出层设定为神经元个数为1 的全连接层,使用Adam 加速器,损失函数为均方误差 mse,batchsize 参数设定为 3。
回归评估指标:mse,mae

基于威尔科克森符号秩检验的原理,若模型 1 和模型 2 是没有显著性差异的,则两个模型在分别 50 只个股中均方误差(mse)差值的正秩的总和与负秩的总和会很接近,当差异大一定程度时,可以认为两个模型是有显著性差异的,从而进一步说明金融文本在LSTM 股价回归预测中的有效性。同理,若模型1 和模型2 是没有显著性差异的,则两个模型在分别50只个股中平均绝对误差(mae)差值的正秩的总和与负秩的总和会很接近,当差异大一定程度时,可以认为两个模型是有显著性差异的。于是,可以提出零假设和备择假设如下:

自变量:以每只成份股t-50,t-49,...,t-1 共计50 个工作日的股价相关基础数据层面和金融文本数据层面等 14 个变量,使用 PCA 主成分分析方法,选取大于 1% 的变量,共11 个主成分变量。
因变量:第 t 个工作日的股票价格数据
建模方法:LSTM 回归算法,使用 5 层神经网络,前 4 层使用 LSTM 神经网络层,神经元的数量均设立为 50 个,激活函数使用默认激活函数 tanh,dropout 参数均设置为0.2,最后一层及输出层设定为神经元个数为1 的全连接层,使用Adam 加速器,损失函数为均方误差 mse,batchsize 参数设定为 3。
回归评估指标:mse,mae

博主简介:本人擅长数据处理、建模仿真、程序设计、论文写作与指导,项目与课题经验交流。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
基于LSTM预测模型是一种利用长短期记忆网络(LSTM)算法来进行时间序列预测的方法。LSTM具有记忆功能,可以利用较长的序列信息来建立学习模型,因此在时间序列预测中有很大的优势。 在基于LSTM预测模型中,首先需要构建一个LSTM神经网络模型。该模型通常由输入层、隐藏层和输出层组成。输入层接收历史数据作为模型的输入,隐藏层则负责处理和记忆序列信息,输出层用于预测未来的数据。通过训练模型并调整网络参数,可以使模型具有学习和预测的能力。 在预测模型中,还需要注意数据的处理。通常情况下,需要准备足够的历史数据作为训练集,以便模型可以学习到数据的模式和趋势。同时,还需要对数据进行预处理,包括特征选择、归一化和序列划分等步骤,以提高模型的准确性和鲁棒性。 基于LSTM预测模型可以应用于很多领域,例如股票价格预测。通过训练模型,可以根据历史股票价格数据来预测未来的股票价格走势。然而,需要注意的是,模型预测结果可能会受到数据量的影响。小样本数据可能会导致模型预测不准确或产生负数等异常情况。因此,在构建和使用基于LSTM预测模型时,需要充分考虑数据的充实性和模型的鲁棒性。 总结起来,基于LSTM预测模型是一种利用神经网络算法来进行时间序列预测的方法。通过构建LSTM神经网络模型并处理历史数据,可以实现对未来数据的预测。然而,在应用该模型时需要注意数据的数量和质量,以提高模型的准确性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坷拉博士

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值