“FinSphere: A Conversational Stock Analysis Agent Equipped with Quantitative Tools based on Real-Time Database”
LLM技术在股票分析中的应用不断进步,出现了结合语言能力与金融工具的增强代理。然而目前仍然缺乏专门用于微调的数据集,和系统化的性能评估方法。
本文提出FinSphere,一个基于LLM的股票分析框架,包含三大模块:
-
Stocksis:由行业专家策划的数据集,提升LLM的股票分析能力。
-
AnalyScore:系统化的股票分析质量评估框架。
-
FinSphere:能够生成高质量股票分析报告的AI代理。
实验结果显示,FinSphere在多个评估维度上优于通用和领域特定的LLMs及代理系统。
论文地址:https://arxiv.org/pdf/2501.12399
摘要
当前金融领域的LLM存在两大局限:缺乏深度的股票分析能力和缺乏客观评估指标。
本文提出FinSphere,一个对话式股票分析代理,包含三大模块:
-
Stocksis:由行业专家策划的数据集,提升LLM的股票分析能力。
-
AnalyScore:系统化的股票分析质量评估框架。
-
FinSphere:能够生成高质量股票分析报告的AI代理。
实验表明,FinSphere在分析质量和实际应用方面优于一般和特定领域的LLM及现有代理系统,尽管后者具备实时数据访问和少量指导。
简介
大型语言模型(LLMs)在自然语言处理方面表现出色,广泛应用于金融领域。这些模型在情感分析和从非结构化金融文本中提取信息方面表现优异。金融专用LLMs如FinBERT、BloombergGPT和PIXIU提升了金融数据处理能力。这些进展促进了更复杂的金融分析工具的发展,改变了投资者与市场数据的互动方式。AI驱动的系统使零售投资者能够获得以往仅限于机构投资者的专业金融分析。
LLM技术在股票分析中的应用不断进步,出现了结合语言能力与金融工具的增强代理。主要挑战包括缺乏专门的数据集进行微调和系统化的评估方法来量化分析性能。LLMs依赖历史数据,无法实时捕捉金融市场的动态。
本文提出三项关键模块:
-
Stocksis:由行业专家策划的专门数据集,提升LLMs的股票分析能力。
-
AnalyScore:全面的评估框架,用于量化分析质量的提升。
-
FinSphere:能够生成高质量股票分析报告的AI代理。
实验表明,FinSphere在整合实时金融数据库和专门工具后,显著优于一般和特定领域的LLMs及现有代理系统。
相关工作
LLMs在股票分析和交易中表现出色,能有效预测股价和进行市场分析,相关模型包括InvestLM和GPT-InvestAR。研究还探讨了LLMs在金融异常检测、投资组合评估和财务报表分析中的应用,显示其在金融分析中的潜力。当前金融数据集(如FinQA、TAT-QA、FLARE)缺乏专门的股票分析覆盖,现有评估指标多为通用指标,需开发领域特定的评估方法。金融LLMs通过领域特定的指令调优和工具集成取得进展,示例包括FinGPT和XBRL-Agent。本文提出FinSphere Agent,利用实时数据库和先进的量化工具,旨在克服现有方法的局限性。
Stocksis和AnalyScore
股票市场分析日益复杂,需要整合多种数据源和分析方法。LLM在金融分析中有潜力,但存在两个关键问题:
-
缺乏高质量的训练数据以提升LLM的股票分析能力。
-
缺乏标准化的评估框架来评估AI生成的股票分析报告。
为了应对上述问题,本文提出了两个重要模块:
-
Stocksis:专门设计的综合数据集,旨在增强LLM的股票分析能力。
-
AnalyScore:系统评估框架,用于评估股票分析报告的质量。
Stocksis:提高LLM股票分析能力的高质量数据集
Stocksis包含5,000个训练对,其中50个对已开源用于研究和开发。每个训练样本由两部分组成:
-
提示与背景信息(输入):包含来自多个定量分析工具的汇总输出,平均长度4,000字,涵盖成交量-价格分析、技术指标等市场指标。
-
专家编辑分析(标签):深入的分析报告,平均3,000字,回应提示要求并有效利用背景信息,提供市场评估和定量指标解读的详细理由。
数据集通过公司在股市分析方面的专业知识精心编制,采用成熟的定量工具进行数据收集。数据收集过程分为两个阶段:
-
生成提示和背景信息:专家分析师选择合适的分析工具,生成定量分析,并制定针对性提示。
-
综合分析创建:10位资深分析师根据提示撰写详细分析报告,确保分析的严谨性和质量控制,历时约三个月。
Stocksis的发布填补了AI金融分析中的关键空白,旨在促进AI模型的开发,使其能够提供复杂的工具基础股市分析,提升金融洞察的可获取性。
AnalyScore:股票分析报告的综合评估框架
AnalyScore是一个评估股票分析报告质量的框架,结合传统评估原则与LLM知识。评估过程分为两个主要部分:
-
先验资格检查:六个必备标准,确保基本质量,包括结论结构、逻辑一致性、事实支持、数据时效性、分析维度和中立语言。
-
详细评估:四个关键维度,总分100分:
-
结论(20分):投资建议的清晰度和个性化。
-
内容(45分):专业分析质量和逻辑一致性。
-
表达(15分):结构组织和语言清晰度。
-
数据(20分):数据利用的广度和深度。
目前仅由人类专家使用,未来计划设计提示以使LLM替代人类专家进行评估。
FinSphere Agent
基于实时数据库的强大定量工具
FinSphere与公司成熟的定量分析工具无缝集成,已在生产环境中广泛验证。这些工具访问全面的实时金融数据库,涵盖市场股票的结构化和非结构化数据。
FinSphere在需要特定定量分析时,自动触发相应工具,从数据库提取最新数据。工具执行复杂计算,生成技术指标、基本面估值和市场情绪评估等分析。每个工具提供针对用户查询的上下文信息,确保分析反映当前市场状况。该架构确保FinSphere的响应基于最新市场数据,并利用经过验证的定量方法。
指令微调
对Qwen2-72B进行了指令微调,使用Stocksis数据集提升金融分析能力。Stocksis数据集包含5000对高质量训练样本,包含结构化提示和专家分析。微调采用LoRA方法,实现高效参数更新,保持模型通用能力。训练模型以解读多种定量工具输出,整合分析视角,生成专业报告。
工作流
FinSphere通过系统化的多阶段流程生成全面的财务分析。首先,使用链式思维(CoT)将用户请求分解为结构化子任务,并识别所需的定量工具。选定的工具独立访问实时金融数据库,获取最新市场数据,生成专业分析。分析内容包括技术指标和基本面指标,提供多维度视角。最后,Stocksis调优模型整合所有分析,生成高质量的综合响应。该流程结合了定量分析的精确性和专家金融推理的细致理解,确保实时相关性。
评估
FinSphere集成实时金融数据库和专有量化工具,分析能力超越通用LLM。传统性能比较存在挑战,因通用LLM无法访问实时金融数据。
比较分析分为三类模型:单一LLM、基于Agent的系统和FinSphere。LLM模型包括专有模型(如GPT-4o、GPT-3.5)、开源模型(Qwen2-72B)和领域特定模型(InvestLM、FinGPT),使用链式思维提示。
Agent系统评估包括FinMem和FinRobot,采用简化提示。FinSphere通过直接用户查询,利用其集成的实时数据库和量化工具进行评估。
结果
FinSphere在AnalyScore框架评估中表现优异,得分70.88,超越传统LLM和其他代理系统(FinMem 67.55,GPT-4o 66.61)。专业代理系统普遍优于独立语言模型,通用LLM表现中等,领域特定LLM(如FinGPT 40.05)能力有限。
FinSphere结合实时数据访问、量化工具和Stocksis调优LLM,验证了其集成方法的有效性。通用LLM需大量示例提示以生成股票分析,导致输入令牌数增加,提升运营成本;而FinSphere通过架构和指令微调减少了输入令牌需求。
FinSphere计划于2024年12月公开发布,届时将提供免费访问。
消融分析
进行了一项消融研究,探讨训练数据规模对FinSphere性能的影响,使用Stocksis数据集的不同比例(20%、50%、80%、100%)进行Qwen2-72B的微调。评估结果显示,训练数据规模与模型性能呈正相关,整体得分从58.90(20%)提升至70.88(100%)。性能提升呈非线性,数据量增加时增益更大:20%到50%增3.78分,50%到80%增3.99分,80%到100%增4.21分。结果强调了全面训练数据对优化性能的重要性,同时表明FinSphere在减少训练数据时仍能保持满意的性能。
总结
FinSphere是一个创新的股票分析代理,解决了LLMs在股票分析中的关键能力缺口。通过整合实时金融数据库、量化工具和指令调优的LLM,FinSphere在生成全面的股票分析方面表现优越。开发了Stocksis高质量数据集和AnalyScore评估框架,推动AI金融分析研究。实验结果显示,FinSphere在多个评估维度上优于通用和领域特定的LLMs及代理系统。本工作显著推动了专业级金融分析工具的普及,同时保持了分析的严谨性和实用性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。