“Fino1: On the Transferability of Reasoning-Enhanced LLMs to Finance”
论文地址:
https://arxiv.org/pdf/2502.08127v1
Github地址:
https://github.com/The-FinAI/Fino1
摘要
本研究对16种大型语言模型(LLMs)在复杂金融任务中的表现进行了全面评估,这些任务涵盖了金融文本分析、表格数据解读以及基于方程的问题解决。评估的关键领域包括数值推理能力、金融术语的理解、长上下文的处理以及多表格信息的综合分析。研究发现,尽管高质量的数据集和深入的预训练有助于提升模型在金融推理方面的表现,但通用性的增强方法,例如通过链式思维(CoT)进行微调,并不总能带来显著的效果。此外,所有测试的推理策略在处理长上下文和涉及多个表格的任务时均遇到了较大的困难。
为此,我们构建了一款基于Llama-3.1-8B-Instruct的新型金融推理增强模型。该模型通过结合CoT微调与领域特定的强化学习技术,实现了性能上的显著提升,总体表现较原有模型提高了10%。这一改进使得我们的新模型不仅在所有8B规模的模型中脱颖而出,甚至超越了更大规模的Llama3-70B-Instruct模型。这表明,在金融任务中,针对特定领域的适应性优化至关重要。未来的研究方向应继续聚焦于多表格推理能力的提升、长上下文处理技术的改进,以及对金融专业术语更深层次的理解。
综上所述,这项研究表明,为了更好地应对复杂的金融任务,大型语言模型需要更加注重领域特定的知识整合与优化,而不仅仅是依赖于模型规模的扩大或通用性增强策略的应用。
简介
大型语言模型(LLMs)在自然语言处理领域展现出了卓越的能力,但在金融领域的推理能力方面,其潜力尚未被充分挖掘。金融任务要求模型具备精确的推理技能,这不仅涉及对专业术语的理解,还包括处理金融概念与数字之间的复杂关系以及解析金融表格的能力。本研究致力于评估当前可用的推理模型在金融任务中的实际表现,深入分析它们的优势与不足,以推动金融人工智能的研究进展。特别关注以下几个关键点:
- 通用领域推理增强技术向金融领域的迁移能力;
- 推理增强技术对不同金融任务的具体影响;
- 小型推理模型与大规模LLMs在金融推理任务中的性能差异;
- 大规模语言模型在处理复杂金融任务时所面临的局限性。
为了实现这一目标,我们选取了16种大型语言模型,在三个专门设计用于评估金融推理能力的数据集上进行了详尽测试,这些数据集分别是FinQA、DM-Simplong和XBRLMath。这些模型既包括通用型也涵盖增强型推理模型,参数规模从8B延伸至70B,力求全面覆盖并评估模型的金融理解力。研究结果揭示了一些重要发现:
- 通常被认为有效的通用推理增强策略,例如DeepSeek-R1和GPT-o1,在金融任务上的表现反而不如一些基础模型;
- 当模型参数量达到32B或70B后,其性能并未随着规模进一步显著提升;
- 此外,不同的推理增强策略在金融任务中的效果存在显著差异,其中通用领域的技术改进对金融推理的帮助有限,而像DeepSeek和Qwen-Math这样的模型虽然在数值准确性上有一定进步,