2. 机器学习技术综述
集成多种人工智能系统的机器学习技术尝试通过对历史数据的学习提取数据模式,这一过程被称为训练或学习,其目的在于实现后续基于新数据的预测(Xiao, Xiao, Lu, and Wang, 2013, pp. 99–100)。使用机器学习方法的实证研究通常分为两个主要阶段。第一个阶段选择与预测相关的变量和模型,从整体的数据集中分别分离出一部分,各用于模型的训练和验证,从而对模型进行优化。第二个阶段将优化后的模型应用到用于测试数据上,从而评估预测的表现。文献中使用到的基本技术包括人工神经网络(ANNs)、支持向量机(SVMs)和随机森林算法(RFs)。
一般来说,神经网络的模型是模仿生物过程建立的。(Adya and Collopy, 1998, p.481),尤其是人类学习和识别模式的过程(Tsaih, Hsu, and Lai, 1998, p.162)。这些神经网络的基本单元——神经元,模仿的正是人体的神经元。神经元通过树突接受输入的变量,并产生输出值(Laboissiere, Fernandes, and Lage, 2015, pp. 67–68)。这些输出可以作为其他神经元的输入。神经网络的基本处理单元的层与层相互连接,每个连接被分配以权重(Lahmiri, 2014a, p. 1450008-5),这些权重会在神经网络学习的过程中进行调整(Kumar and Thenmozhi, 2014, p. 291),这也就是上一段落中提到的第一个训练阶段。这个阶段不仅优化了不同层神经元之间的相互连接,还优化了层与层之间的传递函数的参数,从而最小化误差。最后,神经网络的最后一层负责把来自上一层的所有信号聚集起来形成一个输出信号,这就是整个网络对于某一特定输入数据集的输出。
神经网络尝试通过训练来最小化实证数据的误差,而支持向量机尝试做的是最小化分类误差的上阈值(Huang, Nakamori, and Wang, 2005, p. 2514)。为此,支持向量机接收训练数据,把这些数据从其原始的维度空间转移到维度更高的空间中,并在这个空间中用超平面实现近似于实际分类的线性分隔(Kara, Boy- acioglu, and Baykan, 2011, p. 5314)。该算法通常用于基于模型的输入变量进行的数据分类。在训练阶段尝试最小化超平面距离。数据从原始维度的空间到进行分类的空间的转移是在核函数的帮助下,通过模型训练中的预估参数化完成的,这一过程被Pai和Lin详细描述(2005, pp. 498–499)。
正如Barak, Arjmand 和Ortobelli指出(2017, p. 91),与人工神经网络(ANN)和支持向量机(SVM)一样,决策树也经常出现在与机器学习相关的的文献中。该方法将数据分为包含不同输入变量的子集,直到取得符合训练集数据的基本分类单元。预测结果最准确的分类树被合并为一个森林。这就是Breiman(2001)提出的随机森林算法(RF)。正如Krauss,Do,和Huck (2017),Kumar et al. (2016),Ballings,den Poel,Hespeel
和 Gryp (2015),Patel,Shah,Thakkar,和 Kotecha (2015)以及 Kumar和Thenmozhi (2014)等人所指出的,这种把决策树合并为随机森林的技巧可用于回归和分类。它能够出色地对金融市场进行预测。
5. 文献综述
5.1 被引用最多的文章
根据本文第四节中的文献调查,在被引用最多的文章中,Malkiel和Fama(1970)的经典作品值得关注,因为它提出了有效市场假说(EMH)。根据这个理论,金融市场会立即对可用信息迅速产生响应并做出调整,预测市场的未来走势是不可能的。弱视有效市场假说认为可用信息仅包括资产的历史价格(Malkiel and Fama, 1970, p. 388)。半强式有效市场假说把可用信息的范围扩大到其它公开信息,例如年度报告和新股的发行。强式有效市场假说对应的是某些投资者垄断内部信息的情况。Malkiel和Fama(1970)的理论对于金融市场的预测至关重要,因为建立可持续盈利的系统很可能意味着存在与EMH理论相反的证据(Timmermann and Granger, 2004, p. 16)。
在表12中列出的Engle(1982)和Bollerslev(1986)的几篇文章介绍了用于金融市场预测的重要计量经济学模型。Engle(1982)使用了一种名为自回归条件异方差(ARCH)的模型对时间序列进行建模。在这个模型中,当前的条件方差由之前的误差决定,非条件方差保持恒定。而Bollerslev(1986)则对ARCH模型进行了泛化,认为其自身的方差视属于自回归的过程,从而提出了广义自回归条件异方差模型(GARCH)。尽管ARCH模型和GARCH模型被广泛运用于时间序列的预测,但是它们都把时间序列数据的生成视为一种线性的过程(Cavalcante et al., 2016, p. 197)。然而,非线性是市场的特点,它会与政治、经济以及运营者的期望相互作用(Göçken et al., 2016, p. 320),这就使得GARCH模型无法适用于很多金融时间序列(Lahmiri and Boukadoum, 2015, p. 1550 0 01-2)。因此,又有其他的方法被提出,例如Elman(1990)的方法。Elman提出了一个与某些未来的神经网络模型有相似之处的的预测网络。而坎贝尔测试图Campbell(1987)则尝试了记录用来预测两个不同时期内股票收益的变量。然而,Campbell(1987, p. 393)的最终结论是,不存在能够预测股票收益的所有变化情况的简单模型。
在4节列出的文章中,在Scopus数据库中被引用次数最多的文章是Kim(2003)撰写的文章。如表11所示,这篇文章在Scopus数据库中被引用了546次,平均每年被引用39次。Kim(2003)使用技术技术分析(TA)指标作为预测变量,提出了支持使用向量机(SVM)对韩国股市指数(KOSPI)走向进行分类,并将结果与使用神经网络或案例式推理(C