论文链接:https://arxiv.org/pdf/2406.10811v1
“ 随着大型语言模型(LLMs)在众多任务中表现卓越,本研究将其应用于金融领域的股票走势预测。提出了LLMFactor框架,采用顺序知识引导提示(SKGP)从LLMs中识别影响股票走势的因素,与以往依赖关键词或情感分析的方法不同,该框架直接提取与股市动态相关的因素,为复杂的时间变化提供清晰解释。通过对美国和中国股市的四个基准数据集评估,证明了该框架优于现有方法,在金融时间序列预测方面有效。”
一、背景
人工智能在金融领域的应用广泛:如预测股票走势、提供机器人顾问服务、管理风险等,其中预测股票趋势意义重大。
股票价格可预测性的理论基础:有效市场假说(EMH)认为股票价格反映所有可用信息难以预测,但信息不对称和非理性行为等现象表明市场存在低效性,这为研究者寻找超额回报提供了机会。
利用多种数据类型预测股票走势的研究现状:一些研究强调股票相关新闻对挖掘市场洞察力的重要性,还有研究关注公司和行业间的相互联系,以及公众情绪对市场趋势的影响,但现有的方法如关键词和情感分析等存在局限性。
LLMs在时间序列预测方面的探索:LLMs知识基础丰富但结构并非为分析时间序列数据设计,已有学者探索将其用于时间序列预测的方法,但存在如提示信息过多导致LLMs响应缺乏细节等问题。
提示工程的发展:提示工程可让LLMs有效处理各种任务,但确定每个任务的最佳提示是挑战,因此出现了多种提示策略,本研究受此启发提出新的顺序知识引导提示(SKGP)来提高金融预测的准确性。
二、问题定义
给定一只股票stock_{target}、其目标预测日date_{target}发布的相关新闻news_{target}以及历史股票价格序列P = {P_{1}, P_{2},…, P_{t}},将股票走势预测作为一个二分类问题,把股票价格序列转化为股票走势序列hat{P} = {hat{P}_{1}, hat{P}_{2},…, hat{P}_{t}},其中hat{P}_{i}=1表示股价上涨,hat{P}_{i}=0表示股价下跌,目标是在给定date_{target}、news_{target}和hat{P}的情况下预测hat{P}_{t + 1}。
三、方法
顺序知识引导提示(SKGP)策略
-
匹配和获取新闻背景知识:构建股票列表S = {(C_{i}, T_{i}, I_{i})},将其与news_{target}匹配得到stock_{match},然后通过LLM获取stock_{target}和stock_{match}之间的关系。例如输入关系模板“Please fill in the blank: stock_{target} and stock_{match} are most likely in a ___ relationship”,输出关系类型。这种获取新闻背景知识的方法有助于理解新闻内容,因为公司关系对股票走势预测很关键。
-
生成可能影响股票价格的因素:让LLMs分析新闻内容并识别可能影响股价的因素。对于给定的stock_{target}和news_{target},输入因子模板“Pleaseextract the top k factors that may affect the stock price of stock_{target} from the following news”及新闻内容,LLMs输出相关因素。这些因素与股票走势联系更紧密,能提供更多股价波动的即时和详细洞察,并且提高了股价趋势和LLMs预测依据的可解释性。
-
预测股票价格走势:将新闻背景知识和因素整合以引导LLMs,同时将时间序列数据转换为文本格式供LLMs理解。把股票走势序列hat{P}转换为文本形式的TextMovement,将过去的股票价格走势转换为TimeTemplate,构建PriceTemplate,通过整合关系、因子、TimeTemplate和PriceTemplate,输入LLM得到预测结果,结果包含股价是“rise”还是“fall”以及推理依据。
-
股票市场中的因子分析:SKGP是预测股票走势的强大技术,其导出的因子能提供股票市场趋势的额外洞察。例如对英伟达股价趋势的分析,LLMFactor能识别出如“Nvidia stock gain in January, new product announcements, and selection of Nvidia Drive Thor by EV makers”等简洁的因子集来解释股价变动。
四、实验
4.1 数据集
StockNet:包含美国股市2014-01-01至2016-01-01期间9个行业的87只股票、股票相关推文和历史价格数据。
CMIN-US:美国股市2018-01-01至2021-12-31期间的前110只股票及其推文和历史价格数据。
CMIN-CN:中国股市2018-01-01至2021-12-31期间CSI300指数中的300只股票及其推文和历史价格数据。
EDT:美国股市2020-03-01至2021-05-06期间的54,080篇新闻文章以及相关股票和股价信息。
4.2 评估指标
采用准确率(ACC)和马修斯相关系数(MCC)作为评估指标,根据混淆矩阵计算。
4.3 基线模型
基于关键词的模型:包括PromptRank、KeyBERT、YAKE、TextRank、TopicRank、SingleRank、TFIDF等,这些模型主要通过识别文本中的关键词来进行预测。
基于情感的模型:如EDT、FinGPT、GPT - 4 - turbo、GPT - 4、GPT - 3.5 - turbo、RoBERTa、FinBERT等,通过分析文本中的情感来预测股票走势。
基于时间的模型:CMIN和StockNet,利用文本和时间序列数据预测股票走势。
4.4 实施细节
对于基于关键词的方法,根据标签将数据集分为两个子集,分别提取正负关键词,计算文本得分。对于情感分析,预测文本情感为正或负,根据情感判断股价走势。对于基于因子的方法,在基准数据集上执行整个SKGP过程,但在评估EDT数据集时不使用TimeTemplate。使用gpt-3.5-turbo-1106、gpt-4和gpt-4- 1106-preview通过API进行实验,设定窗口大小t为5、关键词和因子数量k为5、BERT系列模型的批处理大小为64、GPT系列模型为5,实验使用NVIDIA RTX A6000 GPU。
4.5 结果
在四个数据集上,基于因子的方法(LLMFactor)表现优于其他方法,在MCC指标上分别比现有最优方法提高了2.9%、0.4%、11%和4.8%。关键词模型间性能差异小,表明其在股票走势预测方面有效性有限。情感模型性能因模型而异,LLMs在识别文本情感方面表现较好,但EDT模型存在不平衡问题。基于时间的方法与情感方法性能相当。LLMFactor在不同数据集上性能有所差异,在针对美国市场的StockNet和CMIN-US数据集上平均准确率超过63%,平均MCC超过0.2;在针对中国市场的CMIN-CN数据集上性能略降;在仅含新闻无历史价格数据的EDT数据集上,平均准确率为59%,MCC为0.1,表明历史价格信息对LLMFactor的有效性很重要。
4.6 消融研究
对LLMFactor进行消融研究,结果表明因子层对整体性能贡献最大,价格层在ACC和MCC中分别占约86%和32%的总性能,因子层使ACC提高9%、MCC提高46%,关系层使ACC和MCC分别提高5%和22%。
4.7 案例研究
通过对美国和中国市场的部分股票进行因子分析的案例研究,展示了LLMFactor的实际有效性。例如苹果公司股票上涨归因于对供应商的投资和iPhone 11的积极需求,特斯拉股票下跌归因于季度亏损、投资者担忧和市场竞争等因素,表明LLMFactor能有效整合公司关联背景知识、历史新闻和价格数据,增强股票市场动态的可解释性。
五、结论
本研究提出的LLMFactor框架,以顺序知识引导提示(SKGP)策略为核心,整合背景知识、股票相关因子和时间数据来预测股票走势。通过四个基准数据集的严格测试,证明了其优于依赖关键词、情感分析和多模态数据输入的现有最优方法。因子分析的应用突出了LLMFactor的新颖性和有效性,使其成为金融分析的有力工具,是利用LLMs进行透明和可解释金融预测的重要进展。
局限性:尽管LLMFactor依赖于广泛讨论的因子,但将时间数据转换为文本格式对金融预测仍然至关重要,未来研究可探索更多转换方法及其与LLMs的集成。由于LLM响应的可变性,精确复制实验结果具有挑战性,未来旨在探索提高可重复性的方法。在使用基准数据集评估LLMFactor时,需要仔细评估从不同长度和类型文本中提取的因子质量,未来将重点提高这些因子的质量。
六、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】