大数据应用实践1：基于开源架构的股票行情分析与预测

XAI嬴图

于 2021-09-29 10:59:16 发布

阅读量2k

点赞数 1

分类专栏：嬴图文库文章标签： big data 人工智能机器学习

本文链接：https://blog.csdn.net/Ultipa/article/details/120544311

版权

嬴图文库同时被 2 个专栏收录

125 篇文章

订阅专栏

云计算大数据进阶

14 篇文章

订阅专栏

本文探讨了如何利用Apache开源组件构建一个实时股票分析预测系统，基于历史数据的机器学习模型，如逻辑回归和SVM，挑战有效市场假说。系统重点关注高频交易和长期趋势预测，强调数据采集、训练和预测的实战流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

股票市场行情分析与预测一直是数据分析领域里面的重头戏，确切地说IT行业的每一次重大发展的幕后推动者以及新产品（特别是高端产品）的最先尝试者都包含金融行业，特别是证券交易市场，它符合大数据的四大特征：交易量大、频率高、数据种类多、价值高。

在本小节，我为大家介绍一种完全基于开源软件构建的大数据驱动的股票行情分析与预测系统的实现。

通常我们认为在一个充分共享信息的股票市场内，股票价格的短期走向是不可预测的，因此无论是技术分析（Technical Analysis）还是基本面分析（Fundamental Analysis）都不可能让一只股票在短周期（小时、天、1周或10天）内获得好于市场表现的成绩—以上分析是基于著名经济学家Eugene Fama在1970年提出的EMH（Efficient Market Hypothesis，有效市场假说）。

图：经济学家Eugene Fama（尤金·法玛）全世界引用率最高的经济学家之一，金融经济学思想家，2013年诺贝尔经济学奖获得者，提出“有效市场假说”

以美国证券市场为例，它属于半强型有效市场（Semi-Strong Efficient Market），也就是说美国证券市场价格能够充分地反映投资者可以获得的信息，无论投资人选择何种证券，都只能获得与投资风险相当的正常收益率（除非是基于保密信息的内部交易，而在美国市场，内部交易是被法律严格禁止的）。

有鉴于EMH假说，目前市场绝大多数的交易分析与预测软件都集中精力在以下两个领域寻求突破：

·高频交易（HFT，High Frequency Trading）或实时行情预测；

·长期趋势预测（>10天）。

因此，我们在本节中设计的股票行情预测系统主要关注实时预测与长期预测。在这样的系统内，至少有如下三个功能是必须实现的：

·采集：实时股票交易数据导入与存储。

·训练：基于历史数据集的训练、建模。

·预测：结合实时数据与历史数据的决策生成。

下图展示了这样的系统的基本数据流程逻辑图。在设计系统时，我们需要充分考虑系统的并发性与可扩展性。以单只股票为例，可供分析的数据特征有几十种之多（例如PE ratio、EBITDA、EPS等），而分析的频率与周期可以以天为单位，也可能到秒级甚至毫秒级，如果要对多只股票并发分析，则对系统的吞吐率要求更高。

图：基于机器学习的股票分析（预测）

有鉴于此，我们采用了如下开源组件来构建这套系统。

·实时数据采集：Spring XD。

·实时数据分析（IMDG）：Apache Geode。

·历史数据存储+分析（NoSQL）：Apache HAWQ4 + Apache Hadoop。

·机器学习、建模、优化：MADLib + R + Spark。

如下图所示，整体架构的数据流程及工具链如下：

（1）实时数据导入MPP或IMDG集群：Spring XD。

（2）基于机器学习模型的实时数据+历史数据比对分析：Spark MLlib+R（Spark作为基于内存的分布式计算引擎来处理通过R语言机器学习建模的数据）。

（3）分析结果实时推送至股票交易处理应用端。

（4）实时数据存入历史数据库并进行线下分析（非实时）： Apache Hadoop和Apache HAWQ（用于交互式、PB规模高效SQL查询）。

（5）线下分析结果用于更新、调整机器学习模型。

细心的读者还会发现，下图中由上至下，数据的热度是逐渐降低的，对应于基础架构的方案（硬件+软件）也呈现出由高成本到低成本的转变，体现在硬件层面：内存→闪存或硬盘；软件层面：基于内存的网格计算→HDFS。

图：基于开源软件构建的股票分析（预测）系统流程

关于机器学习部分，无论是Spark MLlib、Apache MADlib还是R语言，尽管它们支持的底层分布式基础架构大不相同（MLlib跑在Spark之上；MADlib可以支持主流的数据库系统，如PostgreSQL、Pivotal Greenplum以及HAWQ；R语言则是提供了专注于统计计算与制图的工具包），它们都支持基本的学习算法与工具链，例如分类（Classification）、回归（Regression）、聚类（Clustering）、降维（Dimensionality Reduction）、协同过滤（Collaborative Filtering）等。

在机器学习分类层面，通常我们有三种方式：

· 监督学习（Supervised Learning）；

· 非监督学习（Unsupervised Learning）；

· 增强学习（Reinforcement Learning）。

三者当中，通常监督学习最适合用于股票行情预测。监督学习算法有很多，简单地列举几个：

·逻辑回归（LR，Logistic Regression）；

·高斯判别分析（GDA，Gaussian Discriminant Analysis）；

· 二次判别分析（QDA，Quadratic Discriminant Analysis）；

·支持向量机（SVM，Supporting Vector Machine）。

鉴于篇幅所限，在这里我们无法对每一种算法深究，但是关于机器学习，特别是监督学习，有两个基本的知识点最为重要。

·针对数据训练集进行运算，进而推导出预测模型来对未知数据集进行预测。而选取训练集的大小对预测准确性与性能影响非常大，训练集过小则准确性低，过大则性能低。因此一般选择大小适中的训练数据集来进行处理。

·运算最重要做两件事情：分类+回归，前者就是把集中的数据分门别类加以区分，后者则是发现它们之间的关联性，两者对立统一。

我们发现在长期（>10天）股票趋势预测中SVM的稳定性最高，QDA其次，而GDA与LR则低于50%（也就是说甚至低于抛硬币猜中正反面的50%的几率）；而在短周期（1～10天）分析中，四种算法并没有显示出太大的区别，预测准确率基本上处于50%上下（这样的结果符合EMH假说中对美国这类半强型证券市场的推断）。

另外，在对每一只股票的分析过程中，使用的特征数据越多，则准确率越高。不过，效率与特征的关系不会持续保持线性可增长，当待分析特征多到一定程度后，系统处理性能（或性价比）一定会降低，进而影响到实时性，因此还需要考虑系统效率与实践成本问题。

为了能让大数据工作者更好地进行相关实验与实践，笔者的Pivotal同事们还把本股票实时预测分析系统移植到了笔记本电脑之上，如下图所示。与上图的唯一区别在于把Apache Hadoop与HAWQ组件去掉，也就是说数据处理完全实时化（实时导入、近实时机器学习模型训练、实时数据比对、实时操作建议推送）。