FinSphere：基于LLM的股票分析框架（数据集、评估框架、分析代理）-CSDN博客

本文链接：https://blog.csdn.net/Everly_/article/details/145499055

“FinSphere: A Conversational Stock Analysis Agent Equipped with Quantitative Tools based on Real-Time Database”

LLM技术在股票分析中的应用不断进步，出现了结合语言能力与金融工具的增强代理。然而目前仍然缺乏专门用于微调的数据集，和系统化的性能评估方法。

本文提出FinSphere，一个基于LLM的股票分析框架，包含三大模块：

Stocksis：由行业专家策划的数据集，提升LLM的股票分析能力。
AnalyScore：系统化的股票分析质量评估框架。
FinSphere：能够生成高质量股票分析报告的AI代理。

实验结果显示，FinSphere在多个评估维度上优于通用和领域特定的LLMs及代理系统。

论文地址：https://arxiv.org/pdf/2501.12399

摘要

当前金融领域的LLM存在两大局限：缺乏深度的股票分析能力和缺乏客观评估指标。

本文提出FinSphere，一个对话式股票分析代理，包含三大模块：

Stocksis：由行业专家策划的数据集，提升LLM的股票分析能力。
AnalyScore：系统化的股票分析质量评估框架。
FinSphere：能够生成高质量股票分析报告的AI代理。

实验表明，FinSphere在分析质量和实际应用方面优于一般和特定领域的LLM及现有代理系统，尽管后者具备实时数据访问和少量指导。

简介

大型语言模型（LLMs）在自然语言处理方面表现出色，广泛应用于金融领域。这些模型在情感分析和从非结构化金融文本中提取信息方面表现优异。金融专用LLMs如FinBERT、BloombergGPT和PIXIU提升了金融数据处理能力。这些进展促进了更复杂的金融分析工具的发展，改变了投资者与市场数据的互动方式。AI驱动的系统使零售投资者能够获得以往仅限于机构投资者的专业金融分析。

LLM技术在股票分析中的应用不断进步，出现了结合语言能力与金融工具的增强代理。主要挑战包括缺乏专门的数据集进行微调和系统化的评估方法来量化分析性能。LLMs依赖历史数据，无法实时捕捉金融市场的动态。

本文提出三项关键模块：

Stocksis：由行业专家策划的专门数据集，提升LLMs的股票分析能力。
AnalyScore：全面的评估框架，用于量化分析质量的提升。
FinSphere：能够生成高质量股票分析报告的AI代理。

实验表明，FinSphere在整合实时金融数据库和专门工具后，显著优于一般和特定领域的LLMs及现有代理系统。

相关工作

LLMs在股票分析和交易中表现出色，能有效预测股价和进行市场分析，相关模型包括InvestLM和GPT-InvestAR。研究还探讨了LLMs在金融异常检测、投资组合评估和财务报表分析中的应用，显示其在金融分析中的潜力。当前金融数据集（如FinQA、TAT-QA、FLARE）缺乏专门的股票分析覆盖，现有评估指标多为通用指标，需开发领域特定的评估方法。金融LLMs通过领域特定的指令调优和工具集成取得进展，示例包括FinGPT和XBRL-Agent。本文提出FinSphere Agent，利用实时数据库和先进的量化工具，旨在克服现有方法的局限性。

Stocksis和AnalyScore

股票市场分析日益复杂，需要整合多种数据源和分析方法。LLM在金融分析中有潜力，但存在两个关键问题：

缺乏高质量的训练数据以提升LLM的股票分析能力。
缺乏标准化的评估框架来评估AI生成的股票分析报告。

为了应对上述问题，本文提出了两个重要模块：

Stocksis：专门设计的综合数据集，旨在增强LLM的股票分析能力。
AnalyScore：系统评估框架，用于评估股票分析报告的质量。

Stocksis：提高LLM股票分析能力的高质量数据集

Stocksis包含5,000个训练对，其中50个对已开源用于研究和开发。每个训练样本由两部分组成：

**提示与背景信息（输入）：**包含来自多个定量分析工具的汇总输出，平均长度4,000字，涵盖成交量-价格分析、技术指标等市场指标。
**专家编辑分析（标签）：**深入的分析报告，平均3,000字，回应提示要求并有效利用背景信息，提供市场评估和定量指标解读的详细理由。

数据集通过公司在股市分析方面的专业知识精心编制，采用成熟的定量工具进行数据收集。数据收集过程分为两个阶段：

**生成提示和背景信息：**专家分析师选择合适的分析工具，生成定量分析，并制定针对性提示。
**综合分析创建：**10位资深分析师根据提示撰写详细分析报告，确保分析的严谨性和质量控制，历时约三个月。

Stocksis的发布填补了AI金融分析中的关键空白，旨在促进AI模型的开发，使其能够提供复杂的工具基础股市分析，提升金融洞察的可获取性。

AnalyScore：股票分析报告的综合评估框架

AnalyScore是一个评估股票分析报告质量的框架，结合传统评估原则与LLM知识。评估过程分为两个主要部分：

**先验资格检查：**六个必备标准，确保基本质量，包括结论结构、逻辑一致性、事实支持、数据时效性、分析维度和中立语言。
**详细评估：**四个关键维度，总分100分：

结论（20分）：投资建议的清晰度和个性化。
内容（45分）：专业分析质量和逻辑一致性。
表达（15分）：结构组织和语言清晰度。
数据（20分）：数据利用的广度和深度。

目前仅由人类专家使用，未来计划设计提示以使LLM替代人类专家进行评估。

FinSphere Agent

基于实时数据库的强大定量工具

FinSphere与公司成熟的定量分析工具无缝集成，已在生产环境中广泛验证。这些工具访问全面的实时金融数据库，涵盖市场股票的结构化和非结构化数据。

FinSphere在需要特定定量分析时，自动触发相应工具，从数据库提取最新数据。工具执行复杂计算，生成技术指标、基本面估值和市场情绪评估等分析。每个工具提供针对用户查询的上下文信息，确保分析反映当前市场状况。该架构确保FinSphere的响应基于最新市场数据，并利用经过验证的定量方法。

指令微调

对Qwen2-72B进行了指令微调，使用Stocksis数据集提升金融分析能力。Stocksis数据集包含5000对高质量训练样本，包含结构化提示和专家分析。微调采用LoRA方法，实现高效参数更新，保持模型通用能力。训练模型以解读多种定量工具输出，整合分析视角，生成专业报告。

工作流

FinSphere通过系统化的多阶段流程生成全面的财务分析。首先，使用链式思维（CoT）将用户请求分解为结构化子任务，并识别所需的定量工具。选定的工具独立访问实时金融数据库，获取最新市场数据，生成专业分析。分析内容包括技术指标和基本面指标，提供多维度视角。最后，Stocksis调优模型整合所有分析，生成高质量的综合响应。该流程结合了定量分析的精确性和专家金融推理的细致理解，确保实时相关性。

评估

FinSphere集成实时金融数据库和专有量化工具，分析能力超越通用LLM。传统性能比较存在挑战，因通用LLM无法访问实时金融数据。

比较分析分为三类模型：单一LLM、基于Agent的系统和FinSphere。LLM模型包括专有模型（如GPT-4o、GPT-3.5）、开源模型（Qwen2-72B）和领域特定模型（InvestLM、FinGPT），使用链式思维提示。

Agent系统评估包括FinMem和FinRobot，采用简化提示。FinSphere通过直接用户查询，利用其集成的实时数据库和量化工具进行评估。

结果

FinSphere在AnalyScore框架评估中表现优异，得分70.88，超越传统LLM和其他代理系统（FinMem 67.55，GPT-4o 66.61）。专业代理系统普遍优于独立语言模型，通用LLM表现中等，领域特定LLM（如FinGPT 40.05）能力有限。

FinSphere结合实时数据访问、量化工具和Stocksis调优LLM，验证了其集成方法的有效性。通用LLM需大量示例提示以生成股票分析，导致输入令牌数增加，提升运营成本；而FinSphere通过架构和指令微调减少了输入令牌需求。

FinSphere计划于2024年12月公开发布，届时将提供免费访问。

消融分析

进行了一项消融研究，探讨训练数据规模对FinSphere性能的影响，使用Stocksis数据集的不同比例（20%、50%、80%、100%）进行Qwen2-72B的微调。评估结果显示，训练数据规模与模型性能呈正相关，整体得分从58.90（20%）提升至70.88（100%）。性能提升呈非线性，数据量增加时增益更大：20%到50%增3.78分，50%到80%增3.99分，80%到100%增4.21分。结果强调了全面训练数据对优化性能的重要性，同时表明FinSphere在减少训练数据时仍能保持满意的性能。

总结

FinSphere是一个创新的股票分析代理，解决了LLMs在股票分析中的关键能力缺口。通过整合实时金融数据库、量化工具和指令调优的LLM，FinSphere在生成全面的股票分析方面表现优越。开发了Stocksis高质量数据集和AnalyScore评估框架，推动AI金融分析研究。实验结果显示，FinSphere在多个评估维度上优于通用和领域特定的LLMs及代理系统。本工作显著推动了专业级金融分析工具的普及，同时保持了分析的严谨性和实用性。