本文是LLM系列文章,针对《FinLLMs: A Framework for Financial Reasoning Dataset Generation with Large Language Models》的翻译。
FinLLMs:一种使用大型语言模型生成财务推理数据集的框架
摘要
大型语言模型(LLM)通常依赖于广泛的训练数据集。在金融领域,创建包括表格和长文本的数字推理数据集通常需要大量的手动注释费用。为了解决有限的数据资源和降低注释成本,我们引入了FinLLM,这是一种使用大型语言模型基于常见财务公式生成财务问答数据的方法。首先,我们编制了一个常见财务公式的列表,并根据这些公式使用的变量构建了一个图。然后,我们通过将共享相同变量的变量组合为新元素来扩充公式集。具体来说,我们探索通过手动注释获得的公式,并通过遍历构建的图将这些公式与共享变量合并。最后,利用GPT-3.5,我们在收集的公式集的基础上生成包括表格信息和长文本内容的财务问答数据。我们的实验表明,FinLLM生成的合成数据有效地提高了金融领域中几个大型数值推理模型的性能,优于两个已建立的基准金融问答数据集。
1 引言
2 问题描述
3 财务推理数据集生成
4 实验
5 进一步分析与讨论
6 相关工作
7 结论
我们介绍了FinLLM的开发,这是一个使用大型语言模型生成财务推理数据集的框架。我们的目标是缓解该领域的数据稀缺问题。我们方法的关键步骤包括收集常见的财务公式及其相关变量,用于构建图。然后,通过将包含相同变