基于Conv-LSTM和LLM集成模型用于整体股票预测

最新推荐文章于 2024-12-18 16:08:03 发布

程序猿李巡天

最新推荐文章于 2024-12-18 16:08:03 发布

阅读量938

点赞数 17

文章标签： 1024程序员节人工智能大数据 llama 计算机视觉 milvus lstm

本文链接：https://blog.csdn.net/m0_59235945/article/details/143218300

版权

本文提出了一种新颖的混合模型，用于全面的股票预测。该模型结合了两级卷积LSTM（Conv-LSTM）神经网络和大型语言模型（LLM），旨在通过分析时间序列数据和处理金融新闻、社交媒体和报告中的文本信息来提供市场的整体视图。

I. 引言

股票市场中的空间数据涉及地理因素及其与全球金融活动和参与者的关系。通过分析交易量和市场参与者的地理分布，投资者可以获得有关地区经济状况及其对当地股价影响的洞察。空间分析有助于识别地理风险，例如政治不稳定或自然灾害，并了解地区法规如何影响股票表现。时间数据则涉及随时间监测股价、交易量和其他市场指标的变化，这一过程称为时间序列分析。时间数据使投资者能够观察股票表现的趋势、波动和模式，这对于决策和制定策略至关重要。此外，时间数据还可用于事件影响分析，帮助投资者了解诸如收益公告、经济报告或地缘政治事件等事件如何随时间影响股价。

将空间和时间数据整合应用于股票市场，可以全面了解地理和时间相关因素如何相互作用以影响市场动态。时空数据结合了有关公司和经济活动地理位置的空间信息，以及有关历史价格趋势和交易模式的时间数据。这种综合分析使投资者能够通过检查区域市场如何对全球事件、政治变化、自然现象或经济政策做出反应，以及这些反应如何随时间变化，来构建对市场行为的更完整理解。

为了增强时空数据的预测能力，可以采用Conv-LSTM等先进的神经网络模型。Conv-LSTM神经网络结合了用于特征提取的卷积层和用于捕获时间动态的LSTM层，为股票市场预测提供了强大的解决方案。卷积层从数据中提取空间特征，而LSTM层对时间依赖性进行建模，使系统非常适合分析金融市场中的时空数据。这种方法允许更深入地理解区域影响和时间趋势，这些趋势相互作用以影响市场行为。

此外，将大型语言模型（LLM）整合到此框架中，通过处理金融新闻、社交媒体和经济报告中的非结构化文本数据，进一步加强了分析。LLM旨在通过从大量训练数据中学习模式和结构，提取有意义的见解，以接近人类语言的方式理解和生成文本。例如，LLM可以从金融新闻文章中分析情绪，以衡量市场情绪及其对股价的潜在影响。这种空间、时间和文本数据的结合提供了市场动态的更全面视图，使投资者能够做出更明智的决策。

II. Conv-LSTM的工作原理

长短期记忆网络（LSTM）是一种复杂的循环神经网络（RNN）架构，专门设计用来克服传统RNN的缺陷，例如梯度消失和梯度爆炸问题，这些问题阻碍了长期依赖性的学习。LSTM架构引入了一个独特的结构，包括一个能够在长时间内保持信息的存储单元。这个存储单元由三个关键门控制：遗忘门、输入门和输出门。遗忘门决定保留或丢弃先前单元状态的哪一部分，使用sigmoid激活函数将值缩放到0和1之间，从而决定信息保留的程度。输入门控制将新信息纳入单元状态。它由两个组成部分：一个使用sigmoid函数决定更新哪些值，另一个使用双曲正切（Tanh）函数生成可能添加到状态中的新值。然后通过结合旧单元状态（由遗忘门调制）和新候选值（由输入门调制）来更新单元状态。最后，输出门通过应用sigmoid函数来决定当前单元状态中的哪些信息输出，并将其乘以更新后的单元状态的tanh，从而确定下一个隐藏状态，用于当前输出并传递到下一个时间步骤。这种复杂的机制使LSTM能够有效地捕获和利用长期依赖性，使它们在涉及序列数据的一系列应用中非常有价值。这些应用包括自然语言处理任务，如语言建模、文本生成、机器翻译和语音识别，以及时间序列预测任务，如股票市场预测、天气预测和异常检测，甚至是机器人和自动化过程中的控制系统。LSTM保持上下文和处理长期依赖性的能力使其成为任何需要理解和处理数据序列的任务的强大工具。

III. 大型语言模型

大型语言模型（LLM）是一种先进的人工智能系统，擅长涉及自然语言处理的任务。这些模型旨在通过利用从大量训练数据集中学到的模式和结构，理解和生成与人类语言非常相似的文本。LLM的架构核心是变换器，这是一个深度学习框架，其特点是多层自注意力机制。这种架构使模型能够评估序列中不同单词或标记的重要性，并捕获它们之间的复杂关系。通过结合额外的监督训练数据，这些模型可以针对特定任务进行微调，使它们在情感分析、命名实体识别或甚至复杂的解决问题活动（如下棋）等领域表现出色。

LLM遵循涉及多个阶段的结构化工作流程，每个阶段对其在自然语言处理任务中的性能至关重要。

A. 数据收集：初始步骤涉及从书籍、网站和文章等来源收集大型、多样化的数据集。这些数据构成了训练模型的基础，使模型能够发展对语言模式的广泛理解。

B. 标记化：然后将文本数据标记化成较小的单元（标记），例如单词或子单词，具体取决于模型。标记化允许LLM更有效地处理文本，并捕获更细微的语言细节。

C. 预训练：在此阶段，模型被训练以预测序列中的下一个标记，使用变换器架构。预训练是一个无监督过程，在这个过程中，模型通过分析大量数据来学习语法、语义和句法。

D. 变换器架构：LLM构建在变换器上，变换器使用自注意力机制计算标记之间的关系。这使模型能够理解上下文，并根据标记在序列中的重要性分配不同的权重。

E. 微调：预训练后，模型在特定任务的数据集上进行微调。此过程使用监督学习，使LLM适应特定任务，如文本分类、情感分析或问答。

F. 推理：一旦训练完成，模型执行推理，根据输入生成预测或文本。在这个阶段，LLM利用其学到的知识产生上下文相关的输出。

G. 上下文理解和Beam Search：LLM擅长通过自注意力机制捕获长距离依赖性。对于序列生成，采用Beam Search生成最可能的标记序列，确保连贯且上下文适当的响应。

H. 响应生成：最后，模型通过预测后续标记基于输入和先前生成的标记生成文本，产生流畅且类似人类的响应。

IV. 传统预测问题

传统的股票预测方法利用LSTM网络的强大能力来捕获提供给它的时间数据中的模式并进行预测。然而，这些模型未能捕获对微调预测至关重要的空间数据。如前一节所讨论的，空间数据在决定股票命运中扮演着非常重要的角色，例如，来自知名新闻频道的负面文章可能会导致股票价值暴跌，而正面文章可能会导致基于文章强度的意外升值。这对投资者来说非常关键，因为它可能建议他们合适的盈利退出时间。因此，一个仅基于模型在5-10年期间对股票的时间数据拟合得如何的股票预测模型，在现实世界用例中可能表现不佳。这是不理想的，因为模型在训练和现实世界场景中都能很好地工作是必要的。因此，迫切需要将空间因素纳入微调预测，并实现模型不仅能够基于历史数据，而且能够基于当前与股票相关的世界事件准确预测股价涨跌。

V. 提出的解决方案

需要对空间数据组件进行分析，例如新闻文章等，以微调LSTM预测。用于此类分析的最佳模型往往是大型语言模型（LLM），它们使用变换器架构。因此，提出的解决方案是将初始conv-LSTM网络的时间分析能力与LLM提供的空间分析相结合的层次模型。

层次模型由两层组成，第一层是conv-LSTM层，它仅基于股票的历史表现进行初步预测。可以构建一个单独的管道，收集给定时期内与股票相关的所有新闻文章。然后将新闻数据输入预训练的LLM（例如BERT）进行情感分析。情感分析至关重要，因为它将根据文章的强度为每篇文章分配一个介于-1（极度负面）和1（极度正面）之间的情感分数。然后可以根据新闻来源的影响力/声誉计算加权累积平均分数。

第二层将两个管道的数据结合起来，将conv-LSTM网络的数据与使用时间映射的情感分数合并，以创建下一个LLM的训练数据。采用预训练的LLM，并使用生成的数据进行微调。输入数据由两部分组成——输入文本和目标文本。输入文本由conv-LSTM预测和使用时间映射的累积平均情感组成。目标文本将包含该时间点的实际股票价值（从市场获取）。这将逐步微调LLM模型，以帮助预测更接近实际市场价格的值。由于使用时间序列分析（即LSTM）无法检测到突然的上涨，因此模型依赖新闻文章/其他空间特征，例如地理区域等，以帮助预测更接近目标值的值。因此，将LLM对空间特征的理解能力与使用历史数据进行预测的Conv-LSTM的预测结合起来，将有助于模型提供整体全面的股票预测，并在现实世界场景中表现良好。

VI. 模型的工作方式

层次LSTM-LLM架构的第一层包括将历史数据输入conv-LSTM以生成基于历史模式的朴素预测。数据被分割成基于测试的最优长度序列。

A. 数据预处理：在将数据加载到conv-LSTM之前对其进行预处理对LSTM的功能至关重要。对股票数据进行预处理以规范化和清理数据集。这一步确保数据格式适合输入到Conv-LSTM模型中。预处理通常包括处理缺失值、重新缩放和将数据结构化为适合张量格式的结构。

规范化：在本用例中，使用Z分数规范化。与将值压缩到固定范围的最小-最大缩放不同，Z分数规范化保留了数据的分布，适用于假设高斯分布的算法（例如逻辑回归、线性回归）。此外，它通过使特征具有截然不同的规模可能导致梯度不稳定，从而改善基于梯度的优化的收敛性。

其中是原始值，是数据集的均值，是标准差。

选择最优组长度：预处理的下一部分涉及将整个数据集分割为LSTM一次可以处理的组的最优长度。这个最优长度可以通过以下过程实现：

停止标准：和。这里，是一个非常小的值（例如，1），在这个值以下进一步细化序列长度是没有用的。因此，获得的现在是conv-LSTM下一步使用的组的最优长度。

创建训练集：现在找到了最优长度，数据可以被分成最优长度的组，以捕获数据的时间依赖性。最优长度平衡了模型复杂性和计算效率。这里使用了滑动窗口方法，将时间序列数据划分为固定长度的窗口，每个窗口包含用作输入以预测序列中下一个值（s）的过去观测子集。窗口可以重叠，允许模型从序列数据中学习时间依赖性和模式。

B. 卷积LSTM：

在Conv-LSTM中，卷积层负责捕获空间特征，这些特征在这种情况下可以指多个股票属性或其他外部金融指标中的模式。这些空间模式对于理解变量之间的局部相关性（例如，股票价格、交易量和波动性）随时间的变化至关重要。与此同时，LSTM层捕获时间序列股票数据中的时间依赖性。LSTM以其在长时间内保留重要信息的能力而闻名，使它们非常有效于识别股票价格中的长期模式和趋势。这使Conv-LSTM不仅关注短期波动，还考虑长期市场行为，如季节性趋势或经济周期。

该模型的损失函数为：

即均方误差（MSE）损失。然而，更好的选择是“Huber损失”函数，它结合了MSE和MAE（平均绝对误差）的优势，使其对异常值更加健壮。

其中，是一个阈值，定义了MSE过渡到MAE的点。

conv-LSTM返回预测的时间序列，然后可以将其带入下一步。

C. 新闻数据处理和标记化：

数据获取：使用API（例如新闻API）获取新闻数据，即关于特定股票的新闻文章。API调用将返回一个可以解析以获取相关详细信息的JSON。
数据处理：新闻/文章网站的名称、文章的标题和文章的正文一起获取。然后，文章的标题和正文被连接在一起，准备进行标记化。
数据标记化：数据需要标记化以被变换器在下一步中接受。因此，标记化发生，删除任何无关字符，并组织文本数据。然后，数据被输入到自然语言处理模型（NLP）中，即本例中的BERT。

D. 使用BERT进行情感分析：

一旦标记化，清理和组织的数据就输入到自然语言处理（NLP）模型中，特别是本例中的BERT（来自变换器的双向编码器表示）。BERT使用其深度学习能力来理解文章中单词的上下文，捕获一般情感和细微含义，这对于基于股票新闻的进一步分析或预测任务至关重要。因此，BERT被应用于处理过的新闻数据，以分析文本的情感（正面、负面或中性）。这些情感分数作为额外特征，可以影响股票预测，因为正面新闻可能表明股价上涨，而负面新闻可能预示着下跌。

E. 使用加权累积分数进行响应后处理：

BERT生成的响应将包含每篇文章的情感分数。现在，每天会发布多篇关于特定股票的文章。因此，需要计算当天或该时间段的累积情感分数。因此，根据其影响力/声誉为相应文章/新闻网站分配权重。

设置情感分数：BERT对文章的响应包含“POSITIVE”、“NEGATIVE”或“NEURAL”标签。因此，如果标签是“NEGATIVE”，则情感分数乘以（-1），如果是其他两个，则保持不变。
计算加权累积分数：要计算加权累积分数，将每个情感分数乘以相应文章/新闻的权重。然后，根据要计算平均情感分数的时间，即整个一天或最后一小时，计算加权情感分数的平均值，这是该时间段内股票的加权累积分数。

其中，是第篇新闻文章的权重，是第篇新闻文章的情感分数，是股票的累积情感分数。因此，这个加权累积分数代表了整个时间间隔内股票的整体情感，并将有助于LLM的训练。

F. 时间映射和长度调整

conv-LSTM提供的预测序列基于历史数据提供朴素预测。新闻数据包含相应时间间隔的加权累积情感分数。现在，使用时间间隔将两者的数据映射在一起。每个时间间隔形成的每对包含来自conv-LSTM的预测和来自NLP模型的累积加权情感分数。接下来，进行长度调整。这是可选步骤。当LSTM预测的形状（即长度）与新闻数据的形状不相等时，需要此步骤，即在某些情况下，可能无法获取足够的新闻数据来映射整个历史数据的时间框架。因此，缩短历史数据的长度以匹配新闻数据的长度。

因此，情感数据与股票数据的相应时间段对齐，应用形状调整以确保两个数据集同步，允许更细致地了解新闻情感如何随时间影响股票价格。

G. 变换器微调

使用时间序列预测和情感分数的组合数据集训练变换器模型，特别是微调T5模型。T5架构是一个序列到序列模型，非常适合涉及语言生成和转换的任务，但在这里它被微调用于时间序列预测。微调变换器的训练数据由结合两个数据源获得的组合时空数据制成。变换器的训练数据形式如下：

变换器在此训练数据上进行训练，响应带到下一步。

H. 响应评估

评估变换器生成的预测的准确性和可靠性，确保模型能够有效捕获涉及历史数据和实时情感分析的复杂市场动态。评估后，微调模型输出最终时间序列预测。这个预测受到股票历史行为（由LSTM捕获）和实时情感（由BERT捕获）的影响。这种结合了不同的AI模型——Conv-LSTM用于序列数据，BERT用于文本情感分析，变换器用于微调——创造了一个复杂、多维的股票市场预测方法。

VII. 结果和结论

本文使用的研究数据集是一个自定义数据集，包括过去四年的历史股票数据，以及同期的相关新闻文章。股票数据包括每日指标，如收盘价、交易量、开盘价和调整后的收盘价，捕捉了股票在各种市场条件下的表现。同时，使用NEWS API收集新闻文章，该API汇集了来自超过150,000个来源的内容，包括主要媒体和专业金融出版物。这些文章关注与股票相关的事件和发展，如财务收益、产品发布和更广泛的经济趋势。这个全面的数据集使我们能够分析量化的财务数据和定性的新闻情感，以评估它们对股票行为的共同影响。

使用包括平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）和平均绝对百分比误差（MAPE）在内的几个关键误差指标来评估机器学习模型的性能。结果表明，混合模型（结合卷积LSTM和LLM）在所有指标上显著优于单独的卷积LSTM模型。性能的提高表明股票表现与提供给它的新闻数据有直接关系。这意味着，仅使用历史数据已经可以产生准确的预测，因为LSTM模型捕获了时间趋势，我们可以通过纳入与股票相关的空间数据分析来进一步提高模型的准确性，因为它将有助于建立培训期间获得的空间特征之间的关系，从而有助于提高模型的整体准确性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述