股票预测_机器学习预测股票

2. 机器学习技术综述

集成多种人工智能系统的机器学习技术尝试通过对历史数据的学习提取数据模式,这一过程被称为训练或学习,其目的在于实现后续基于新数据的预测(Xiao, Xiao, Lu, and Wang, 2013, pp. 99–100)。使用机器学习方法的实证研究通常分为两个主要阶段。第一个阶段选择与预测相关的变量和模型,从整体的数据集中分别分离出一部分,各用于模型的训练和验证,从而对模型进行优化。第二个阶段将优化后的模型应用到用于测试数据上,从而评估预测的表现。文献中使用到的基本技术包括人工神经网络(ANNs)、支持向量机(SVMs)和随机森林算法(RFs)。

一般来说,神经网络的模型是模仿生物过程建立的。(Adya and Collopy, 1998, p.481),尤其是人类学习和识别模式的过程(Tsaih, Hsu, and Lai, 1998, p.162)。这些神经网络的基本单元——神经元,模仿的正是人体的神经元。神经元通过树突接受输入的变量,并产生输出值(Laboissiere, Fernandes, and Lage, 2015, pp. 67–68)。这些输出可以作为其他神经元的输入。神经网络的基本处理单元的层与层相互连接,每个连接被分配以权重(Lahmiri, 2014a, p. 1450008-5),这些权重会在神经网络学习的过程中进行调整(Kumar and Thenmozhi, 2014, p. 291),这也就是上一段落中提到的第一个训练阶段。这个阶段不仅优化了不同层神经元之间的相互连接,还优化了层与层之间的传递函数的参数,从而最小化误差。最后,神经网络的最后一层负责把来自上一层的所有信号聚集起来形成一个输出信号,这就是整个网络对于某一特定输入数据集的输出。

神经网络尝试通过训练来最小化实证数据的误差,而支持向量机尝试做的是最小化分类误差的上阈值(Huang, Nakamori, and Wang, 2005, p. 2514)。为此,支持向量机接收训练数据,把这些数据从其原始的维度空间转移到维度更高的空间中,并在这个空间中用超平面实现近似于实际分类的线性分隔(Kara, Boy- acioglu, and Baykan, 2011, p. 5314)。该算法通常用于基于模型的输入变量进行的数据分类。在训练阶段尝试最小化超平面距离。数据从原始维度的空间到进行分类的空间的转移是在核函数的帮助下,通过模型训练中的预估参数化完成的,这一过程被Pai和Lin详细描述(2005, pp. 498–499)。

正如Barak, Arjmand 和Ortobelli指出(2017, p. 91),与人工神经网络(ANN)和支持向量机(SVM)一样,决策树也经常出现在与机器学习相关的的文献中。该方法将数据分为包含不同输入变量的子集,直到取得符合训练集数据的基本分类单元。预测结果最准确的分类树被合并为一个森林。这就是Breiman(2001)提出的随机森林算法(RF)。正如Krauss,Do,和Huck (2017),Kumar et al. (2016),Ballings,den Poel,Hespeel

和 Gryp (2015),Patel,Shah,Thakkar,和 Kotecha (2015)以及 Kumar和Thenmozhi (2014)等人所指出的,这种把决策树合并为随机森林的技巧可用于回归和分类。它能够出色地对金融市场进行预测。

5. 文献综述

5.1 被引用最多的文章

根据本文第四节中的文献调查,在被引用最多的文章中,Malkiel和Fama(1970)的经典作品值得关注,因为它提出了有效市场假说(EMH)。根据这个理论,金融市场会立即对可用信息迅速产生响应并做出调整,预测市场的未来走势是不可能的。弱视有效市场假说认为可用信息仅包括资产的历史价格(Malkiel and Fama, 1970, p. 388)。半强式有效市场假说把可用信息的范围扩大到其它公开信息,例如年度报告和新股的发行。强式有效市场假说对应的是某些投资者垄断内部信息的情况。Malkiel和Fama(1970)的理论对于金融市场的预测至关重要,因为建立可持续盈利的系统很可能意味着存在与EMH理论相反的证据(Timmermann and Granger, 2004, p. 16)。

在表12中列出的Engle(1982)和Bollerslev(1986)的几篇文章介绍了用于金融市场预测的重要计量经济学模型。Engle(1982)使用了一种名为自回归条件异方差(ARCH)的模型对时间序列进行建模。在这个模型中,当前的条件方差由之前的误差决定,非条件方差保持恒定。而Bollerslev(1986)则对ARCH模型进行了泛化,认为其自身的方差视属于自回归的过程,从而提出了广义自回归条件异方差模型(GARCH)。尽管ARCH模型和GARCH模型被广泛运用于时间序列的预测,但是它们都把时间序列数据的生成视为一种线性的过程(Cavalcante et al., 2016, p. 197)。然而,非线性是市场的特点,它会与政治、经济以及运营者的期望相互作用(Göçken et al., 2016, p. 320),这就使得GARCH模型无法适用于很多金融时间序列(Lahmiri and Boukadoum, 2015, p. 1550 0 01-2)。因此,又有其他的方法被提出,例如Elman(1990)的方法。Elman提出了一个与某些未来的神经网络模型有相似之处的的预测网络。而坎贝尔测试图Campbell(1987)则尝试了记录用来预测两个不同时期内股票收益的变量。然而,Campbell(1987, p. 393)的最终结论是,不存在能够预测股票收益的所有变化情况的简单模型。

在4节列出的文章中,在Scopus数据库中被引用次数最多的文章是Kim(2003)撰写的文章。如表11所示,这篇文章在Scopus数据库中被引用了546次,平均每年被引用39次。Kim(2003)使用技术技术分析(TA)指标作为预测变量,提出了支持使用向量机(SVM)对韩国股市指数(KOSPI)走向进行分类,并将结果与使用神经网络或案例式推理(C

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
股票价格预测是一个具有挑战性的机器学习问题,因为股票市场受到许多复杂因素的影响。以下是一些常见的机器学习方法,可以用于股票价格预测: 1. 线性回归(Linear Regression):线性回归是一种基本的预测方法,它尝试建立一个线性模型来拟合股票价格与相关变量之间的关系。这种方法适用于简单的价格趋势预测。 2. 支持向量回归(Support Vector Regression, SVR):SVR是一种非线性回归方法,通过在高维空间中构建支持向量机来拟合数据。它可以处理非线性关系,并且在处理具有复杂模式的数据时表现良好。 3. 随机森林(Random Forest):随机森林是一种集成学习方法,通过组合多个决策树来进行预测。它可以处理特征之间的非线性关系,并且对于处理大量数据和高维数据集很有效。 4. 长短期记忆网络(Long Short-Term Memory, LSTM):LSTM是一种递归神经网络(RNN),在处理时间序列数据时表现出色。它可以捕捉到股票价格的时间依赖性和长期趋势。 5. 卷积神经网络(Convolutional Neural Network, CNN):CNN主要用于图像处理,但也可以用于股票价格预测。可以将股票价格数据转换为图像矩阵,然后使用CNN进行特征提取和预测。 需要注意的是,股票市场受到各种复杂因素的影响,包括经济指标、政治事件、公司业绩等。因此,在进行股票价格预测时,单独使用机器学习方法可能无法获得准确的结果。综合考虑基本面分析和技术分析等方法可能更能提高预测的准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值