全面!金融大模型的前沿进展!

大型语言模型(LLM)为人工智能在金融领域的应用开辟了新的可能性。在本文中,我们将重点关注将大模型用于金融任务的两个关键方面:现有的解决方案和应用指南。

首先,我们回顾了目前在金融领域使用LLM的方法,包括通过zeroshot或few-shot learning利用预训练模型,对特定领域数据进行微调,以及从头开始训练定制LLM。我们总结了关键模型,并评估了它们在金融自然语言处理任务中的性能改进。

其次,我们提出一个决策框架,指导金融专业人士根据他们在数据、计算和性能需求方面的用例约束,选择合适的LLM解决方案。该框架提供了一条从轻量级实验到定制LLM重投资的途径。

最后,我们讨论了金融应用中利用LLM的局限性和挑战。总体而言,本次调查旨在综合最新进展,并为负责任地应用LLM推进金融人工智能提供路线图。

本文组织如下,第2节涵盖了语言建模的背景和导致LLM的最新进展。第3节调查了当前人工智能在金融领域的应用以及LLM在这些领域发展的潜力。第4和第5节提供了LLM解决方案和金融应用的决策指导。最后,第6和第7节讨论了风险、局限性和结论。

2 语言模型的基础知识

语言模型是一种统计模型,它被训练在大量的文本语料库上以预测词序列的概率分布[4]。让我们考虑一个词序列,表示为𝑊 = 𝑤1,𝑤2, …,𝑤𝑛,其中𝑤𝑖代表序列中的第𝑖个词。语言模型的目标是计算概率𝑃(𝑊),这可以表示为:

𝑃 (𝑊 ) = 𝑃 (𝑤1,𝑤2, …,𝑤𝑛) = 𝑃 (𝑤1)𝑃 (𝑤2 |𝑤1)𝑃 (𝑤3 |𝑤1,𝑤2) …𝑃 (𝑤𝑛 |𝑤1,𝑤2, …,𝑤𝑛−1)

条件概率𝑃(𝑤𝑖|𝑤1.𝑤2.𝑤𝑖−1) 捕捉了给定前几个词时单词 𝑤𝑖 的可能性。在过去的几十年里,语言模型架构经历了重大演变。最初,n 元语法模型将单词序列表示为马尔可夫过程[3],假设下一个单词的概率仅取决于前(n −1)个单词。例如,在二元模型中,单词的概率仅取决于前一个单词。

语言模型是一种基于大量文本语料库训练的统计模型,用于预测词序列的概率分布。其目标是计算概率P(W),其中W表示词序列。条件概率P(wi|w1,w2,…,wi-1)表示给定前几个词时单词wi的可能性。过去几十年,语言模型架构经历了重大演变,从n元语法模型到更复杂的模型。

后来,基于循环神经网络(RNN)的模型,如LSTM 和GRU,成为神经网络解决方案,能够捕捉序列数据中的长期依赖关系。然而,在2017年, transformer架构的引入彻底改变了语言建模,在机器翻译等任务中超越了RNN的性能。变换器采用自注意力机制来模拟单词之间的平行关系,促进大规模数据集的高效训练。著名的基于变换器的模型包括GPT(生成式预训练变换器),这是一个仅编码器框架,BERT(来自变换器的双向编码器表示),这是一个仅解码器框架,以及T5(文本到文本转移变换器),它利用编码器和解码器结构。这些模型通过迁移学习在各种自然语言处理(NLP)任务中取得了最先进的结果。

值得注意的是,语言模型的演变主要是由计算能力的进步、大规模数据集的可用性和新型神经网络架构的发展推动的。这些模型显著增强了语言理解和生成能力,使其能够应用于广泛的行业和领域。

3 AI在金融领域的应用概述

3.1 当前人工智能在金融领域的应用

近年来,人工智能(AI)在金融各个领域得到了广泛的应用。在这项调查中,我们关注的是关键的金融应用,包括交易和投资组合管理,金融风险建模,金融文本挖掘,以及金融咨询和客户服务。虽然这份清单并不详尽,但随着人工智能的发展,这些领域显示出巨大的兴趣和潜力。

随着LLM的出现,人工智能在金融行业的潜在应用得到进一步扩大。如下常见金融任务的大模型表现情况:

- 情绪分析(SA)

- 文本分类(TC)

- 命名实体识别(NER)

- 问答(QA)

- 股票走势预测(SMP)

- 文本摘要(Summ)

交易和投资组合管理是金融行业机器学习和深度学习模型的早期采用者。交易的主要目标是预测价格并根据这些预测产生利润。最初,统计机器学习方法如支持向量机(SVM)、Xgboost [68]和基于树的算法被用于盈亏估计。然而,深度神经网络的出现引入了循环神经网络(RNN)等技术,特别是长短期记忆(LSTM)网络、卷积神经网络(CNN)和变压器,这些技术已被证明在 价格预测。此外,强化学习已应用于自动交易和投资组合优化。

金融风险建模涵盖机器学习和深度学习模型的各种应用。例如,麦肯锡公司利用用户历史数据和实时交易数据开发了一种基于深度学习的金融欺诈检测解决方案。类似的方法已应用于信用评分 和破产或违约预测。

金融文本挖掘是深度学习模型和自然语言处理技术得到广泛应用的热门领域。根据,有超过 40 篇关于该主题的研究出版物。金融文本挖掘旨在从大规模非结构化数据中实时提取有价值的信息,从而在交易和风险建模中做出更明智的决策。例如,利用从新闻文章中提取的金融市场情绪来预测股市指数的方向。

将人工智能应用于财务咨询和客户相关服务是一个新兴且快速增长的领域。正如中所讨论的,人工智能驱动的聊天机器人已经在各种电子商务和电子服务场景中提供了超过37%的支持功能。正如“消费金融中的聊天机器人”报告中所强调的那样,在金融行业,聊天机器人正在被用作人类客户服务的经济高效替代方案。此外,正如 CNBC 的一份报告所述,摩根大通等银行正在利用人工智能服务提供投资建议。

当前深度学习模型的实现通过在短时间内从大量数据中有效地提取有价值的见解来提供显着的优势。这种能力在金融行业尤其有价值,及时、准确的信息在决策过程中发挥着至关重要的作用。随着LLM的出现,更多以前被认为棘手的任务变得可能,进一步扩大了人工智能在金融行业的潜在应用。

近年来,人工智能在金融领域得到广泛应用,包括交易和投资组合管理、金融风险建模、金融文本挖掘和金融咨询及客户服务。交易和投资组合管理采用机器学习和深度学习模型进行价格预测,金融风险建模利用深度学习进行欺诈检测、信用评分和破产预测,金融文本挖掘从非结构化数据中提取有价值信息,财务咨询和客户服务则利用人工智能聊天机器人提供经济高效的客户服务。深度学习模型在短时间内从大量数据中提取有价值见解的能力,为金融行业提供了及时、准确的信息,随着LLM的出现,人工智能在金融行业的潜在应用得到进一步扩大。

3.2 大型语言模型(LLM)在金融领域的进步

与传统的模式相比,LLM提供了许多优势,特别是在金融领域。首先,LLM利用其广泛的预训练数据有效地处理常识知识,使他们能够理解自然语言指令。这在由于有限的标记财务数据或限制访问某些文档而导致监督训练具有挑战性的情况下是有价值的。LLM可以通过零样本学习执行任务,正如它们在复杂级别的情感分类任务中令人满意的表现所证明的那样。对于金融文档中的类似文本挖掘任务,LLM可以自动实现可接受的性能。

与其他监督模型相比,LLM具有更好的适应性和灵活性。LLM不是为特定任务训练单独的模型,而是可以通过简单地修改不同任务指令下的提示来处理多个任务。这种适应性不需要额外的训练,使LLM能够同时对财务文件进行情感分析、总结和关键字提取。

LLM擅长将模糊或复杂的任务分解为可操作的计划。Auto-GPT、Semantic Kernel和LangChain等应用程序的开发就是为了展示这种能力。在本文中,我们将其称为工具增强生成。例如,AutoGPT可以根据用户定义的目标优化全球股票ETF和债券ETF的投资组合。它制定了详细的计划,包括获取财务数据,利用Python包进行夏普比率优化,并将结果呈现给用户。以前,用单个模型实现这样的端到端解决方案是不可行的。这一特性使LLM非常适合金融客户服务或金融咨询,它们可以理解自然语言指令,并利用可用的工具和信息来协助客户。

虽然LLM在金融领域的应用前景非常广阔,但重要的是要认识到它们的局限性以及相关风险,这些将在第6节中进一步讨论。

LLM在金融领域具有优势,能够处理自然语言指令,通过零样本学习执行任务,具有适应性和灵活性,可同时进行情感分析、总结和关键字提取。LLM擅长将复杂任务分解为可操作计划,适合金融客户服务或咨询。然而,需要注意其局限性和风险。

LLM在金融领域具有优势,可处理自然语言指令,通过零样本学习执行任务,适应性强,灵活性高。LLM擅长将复杂任务分解为可操作计划,可优化投资组合。然而,应认识到其局限性和风险。

4 金融领域的LLM解决方案

  • FinBert-19: FinBERT:使用预训练语言模型进行金融情绪分析。

  • FinBert-20: FinBERT:金融通信的预训练语言模型。

  • FinBert-21: FinBERT:用于金融文本挖掘的预训练金融语言表示模型。

  • FLANG:当 FLUE 遇见 FLANG:金融领域的基准和大型预训练语言模型。

  • BloombergGPT: BloombergGPT:大型金融语言模型

  • FinMA: PIXIU:大型金融语言模型、指令数据和评估基准。

  • InvestLM: InvestLM:使用金融领域指令调整的大型投资语言模型。

  • FinGPT: FinGPT:金融数据集中开源大型语言模型的指令调优基准

4.1 在金融应用中利用少样本/零样本学习

访问金融领域的LLM解决方案可以通过两种方式实现:使用LLM服务提供商的API或使用开源LLM。OpenAI1、Google2和微软3等公司通过API提供LLM服务。这些服务不仅提供基础语言模型功能,还提供针对特定用例定制的附加功能。例如,OpenAI的API包括聊天、SQL生成、代码完成和代码解释等功能。虽然没有专门为金融应用程序设计的专用LLM服务,但利用这些通用的LLM服务可能是一个可行的选择,特别是对于常见的任务。这项工作中的一个例子展示了OpenAI的GPT4服务在财务报表分析中的应用。

除了科技公司提供的LLM服务外,开源LLM还可以应用于金融应用。诸如LLAMA 、BLOOM、Flan-T5 等模型可以从Hugging Face模型库4下载。与使用API不同,托管和运行这些开源模型需要自行托管。与使用LLM API类似,零样本或少热点学习方法可以用于开源模型。利用开源模型提供了更大的灵活性,因为模型的权重是可访问的,并且模型的输出可以针对下游任务进行定制。此外,它提供了更好的隐私保护,因为模型和数据仍然在用户的控制之下。然而,使用开源模型也有其缺点。报告的评估指标表明,开源模型和专有模型之间存在性能差距。对于某些下游任务,零样本或少热点学习可能不会产生最佳性能。在这种情况下,使用标记数据、专业知识和计算资源对模型进行微调是获得满意结果所必需的。这可能解释了为什么在撰写本文时,没有发现开源模型应用于金融应用的直接例子。在第5节中,我们更详细地讨论了在不同情况下哪种选择更有利。

访问金融领域的LLM解决方案可以通过API或开源LLM实现。OpenAI、Google和微软等公司提供API服务,不仅提供基础语言模型功能,还提供针对特定用例定制的附加功能。虽然无专门为金融应用程序设计的专用LLM服务,但通用LLM服务可能适用于常见任务。例如,OpenAI的GPT4服务应用于财务报表分析。开源LLM如LLAMA、BLOOM、Flan-T5可从Hugging Face模型库下载,自行托管和运行。与使用API不同,利用开源模型可提供更大的灵活性、隐私保护和零样本或少热点学习,但与专有模型之间存在性能差距。

4.2 微调模型

在金融领域微调LLM可以增强领域特定的语言理解和语境理解,从而提高金融相关任务的性能,并生成更准确和定制的输出。

金融领域微调LLM可增强领域特定语言和语境理解,提高金融相关任务性能,生成更准确定制输出。

4.2.1 LLM微调的常用技术。

用于微调LLM的现代技术通常分为两大类:标准微调和教学微调。

在标准微调中,模型在未经修改的原始数据集上进行训练。关键背景、问题和期望答案被直接输入到LLM中,答案在训练期间被屏蔽,以便模型学会生成答案。尽管这种方法很简单,但它非常有效。

指导微调涉及创建特定任务的数据集,这些数据集提供示例和指导,以引导模型的学习过程。通过在训练数据中制定明确的指令和演示,可以对模型进行优化,使其在某些任务中表现出色,或产生更多与上下文相关的期望输出。指令作为一种监督形式,可以塑造模型的行为。

这两种方法都有各自的优点:标准微调易于实现,而指令微调允许对模型进行更精确的指导。理想的方法取决于可用的训练数据量和所需行为的复杂性。然而,这两种方法都利用了已经嵌入在LLM中的知识,并对它们进行微调以提高下游任务的性能。

除了上述方法外,低秩自适应(LoRA)和量化等技术能够实现微调,并且计算需求显著降低。

LoRA允许对原始权重矩阵的低秩分解因子进行微调,而不是对整个矩阵进行微调。这种方法大大减少了可训练参数的数量,使得在功能较弱的硬件上进行训练成为可能,并缩短了总训练时间。

另一种有效的方法是使用精度较低的浮点数,如bfloat16或float16,而不是float32。通过将位宽减半,每个参数只占用2个字节而不是4个字节,从而将内存使用量减少50%。由于较小的数据类型加速了训练,这也使计算速度提高了2倍。此外,减少的内存占用使更大的批量大小成为可能,进一步提高了吞吐量。

现代微调LLM技术分为标准微调和教学微调两类。标准微调在原始数据集上训练,教学微调则创建特定任务数据集。LoRA和量化等技术可降低计算需求。LoRA对低秩分解因子进行微调,减少可训练参数数量。量化使用较低精度浮点数,减少内存占用,提高计算速度。

用于微调LLM的现代技术分为标准微调和教学微调。标准微调在原始数据集上训练,关键背景、问题和期望答案输入LLM,训练期间答案被屏蔽。教学微调创建特定任务数据集,制定明确指令和演示来优化模型。两种方法各有优点,取决于训练数据量和所需行为的复杂性。此外,LoRA和量化等技术能够实现微调,并降低计算需求。LoRA微调低秩分解因子,减少可训练参数数量。使用如bfloat16的较低精度浮点数,减少内存使用量并加速训练,从而提高吞吐量。

4.2.2 微调金融LLM评估。

微调金融LLM的性能可以按两类进行评估:金融分类任务和金融生成任务。在金融分类中,我们考虑了诸如情绪分析和新闻标题分类等任务。在金融生成任务中,我们的重点是问答、新闻摘要和命名实体识别。表1提供了有关所有微调金融LLM的详细信息。在各种微调LLM中,我们将重点讨论其中三个:(1)PIXIU(也称为FinMA),在136K特定任务指令样本上微调LLaMA。(2)FinGPT,它为金融行业培训和应用FinLLMs提供了一个端到端的框架。FinGPT利用轻量级低秩自适应(LoRA)技术,使用大约50k样本微调开源LLM(如LLaMA和ChatGLM)。然而,FinGPT的评估仅限于金融分类任务。(3)另一方面,Instruct-FinGPT在两个金融情绪分析数据集导出的10k指令样本上微调LLaMA,并且仅评估金融分类任务的性能。

根据报告的模型性能,我们总结了以下发现:

•与原始基础LLM(LLaMA)和其他开源LLM(BLOOM、OPT、ChatGLM)相比,所有经过微调的金融LLM在论文中报告的所有金融领域任务(尤其是分类任务)中都表现出明显更好的性能。

•在论文中报告的大多数金融任务中,微调后的金融LLM的表现优于彭博社GPT。

•与强大的通用LLM(如ChatGPT和GPT-4)相比,微调后的金融LLM在大多数金融分类任务中表现出卓越的性能,这表明它们增强了领域特定的语言理解和上下文理解能力。然而,在金融生成任务中,微调后的LLM表现相似或更差,这表明需要更多高质量的领域特定数据集来提高它们的生成能力。

微调金融LLM性能分为金融分类和生成任务两类。分类任务包括情绪分析和新闻标题分类等,生成任务重点为问答、新闻摘要和命名实体识别。表1提供了所有微调金融LLM的详细信息。其中,PIXIU在136K特定任务样本上微调LLaMA,FinGPT提供金融行业培训和应用FinLLMs的端到端框架,利用LoRA技术微调开源LLM。Instruct-FinGPT在两个金融情绪分析数据集导出的指令样本上微调LLaMA,仅评估金融分类任务。微调后的金融LLM相比原始LLM和其他开源LLM在金融领域任务中表现更好,优于彭博社GPT。与强大的通用LLM相比,微调后的金融LLM在金融分类任务中表现出卓越的性能,但在金融生成任务中表现相似或更差,需要更多高质量的数据集来提高生成能力。

微调金融LLM性能可按两类评估:金融分类任务和金融生成任务。分类任务包括情绪分析和新闻标题分类,生成任务重点则是问答、新闻摘要和命名实体识别。表1提供了所有微调金融LLM的详细信息,我们将讨论三个重点:(1)PIXIU,微调136K特定任务指令样本的LLaMA。(2)FinGPT,为金融行业提供端到端训练和应用FinLLMs框架,利用LoRA技术微调开源LLM,仅限于金融分类任务。(3)Instruct-FinGPT,微调10k指令样本的LLaMA,仅评估金融分类任务。微调后的金融LLM在所有金融领域任务中表现更好,优于彭博社GPT。相较于强大的通用LLM,微调后的金融LLM在金融分类任务中表现出色,但在金融生成任务中表现相似或更差,需要更多领域特定数据集来提高其生成能力。

4.3 从头开始预训练

从头开始训练LLM的目标是开发出对金融领域具有更好适应性的模型。表2显示了目前从头开始训练的金融LLM:BloombergGPT、Xuan Yuan 2.0 和Fin-T5。

如表2所示,在预训练阶段,公共数据集与金融专用数据集相结合的趋势越来越明显。值得注意的是,彭博社GPT就是一个例子,其语料库由普通文本和金融相关文本的混合组成。值得一提的是,彭博社GPT主要依赖于50亿个彭博社专有代号的子集,仅占总训练语料库的0.7%。这种有针对性的语料库有助于在金融基准测试中实现性能改进。

彭博社GPT和Fin-T5分别比其原始模型(如BLOOM176B和T5)表现出更优的性能。这些任务包括市场情绪分类、多分类和多标签分类等活动。彭博社GPT取得了令人印象深刻的平均成绩62.51,超过了开源BLOOM176B模型,该模型仅取得54.35的分数。同样,Fin-T5以81.78的平均成绩表现出色,超过了T5模型79.56的分数。值得注意的是,彭博社GPT是使用彭博社专门设计的内部基准进行评估的。评估结果显示,彭博社GPT取得了显著进步,平均成绩为62.47,超过了BLOOM176B的33.39的分数。这一结果突显出,即使内部私有训练语料库占整个训练语料库的比例不到1%,它仍然可以在同一领域和分布范围内对评估任务进行实质性增强。

在金融相关的生成任务(如问答、命名实体识别、总结)中,这两个模型的表现明显优于各自的一般模型。具体而言,彭博社GPT取得了令人印象深刻的64.83分,超过了BLOOM-176B的45.43分。同样,Fin-T5以68.69分胜过T5,而T5得分为66.06。这些发现进一步突显了与通用模型相比,这些模型在生成金融相关内容方面的优越性能。

尽管这些模型不如GPT-3或PaLM等闭源模型强大,但与类似规模的公共模型相比,它们表现出相似或更优的性能。在各种通用生成任务的评估中,如BIG-bench Hard、知识评估、阅读理解和语言任务,BloombergGPT与类似规模的公共模型相比表现出可比或更优的性能,尽管略逊于GPT-3或PaLM等大型模型。总体而言,BloombergGPT在各种通用生成任务中表现出值得称赞的性能,在同类规模的模型中占据有利地位。这表明该模型在金融相关任务中的增强能力并不以牺牲其一般能力为代价。

在预训练阶段,公共数据集与金融专用数据集结合的趋势明显,彭博社GPT是一个例子,其语料库由普通文本和金融相关文本混合组成,主要依赖于50亿个彭博社专有代号的子集。彭博社GPT和Fin-T5比原始模型表现出更优的性能,在市场情绪分类、多分类和多标签分类等活动任务中成绩突出。这两个模型在金融相关的生成任务中表现明显优于各自的一般模型,取得了显著的成绩。与类似规模的公共模型相比,它们表现出相似或更优的性能。总体而言,BloombergGPT在各种通用生成任务中表现出值得称赞的性能,在同类规模的模型中占据有利地位。

从头开始训练LLM的目标是开发出对金融领域具有更好适应性的模型。表2显示了目前从头开始训练的金融LLM:BloombergGPT、Xuan Yuan 2.0 和Fin-T5。预训练阶段,公共数据集与金融专用数据集相结合的趋势明显。彭博社GPT就是一个例子,其语料库由普通文本和金融相关文本的混合组成,并主要依赖于50亿个彭博社专有代号的子集,仅占总训练语料库的0.7%。BloombergGPT和Fin-T5分别比其原始模型表现出更优的性能,并在金融基准测试中实现性能改进。这些模型在金融相关的生成任务中表现明显优于各自的一般模型。BloombergGPT在各种通用生成任务中表现出值得称赞的性能,在同类规模的模型中占据有利地位。

从头开始训练LLM的目标是开发出对金融领域具有更好适应性的模型。表2显示了目前从头开始训练的金融LLM:BloombergGPT、Xuan Yuan 2.0和Fin-T5。在预训练阶段,公共数据集与金融专用数据集结合的趋势明显,彭博社GPT是一个例子,其语料库由普通文本和金融相关文本混合组成,主要依赖于50亿个彭博社专有代号的子集。彭博社GPT和Fin-T5比原始模型表现出更优的性能,在市场情绪分类、多分类和多标签分类等活动任务中成绩突出。这两个模型在金融相关的生成任务中表现明显优于各自的一般模型,取得了显著的成绩。与类似规模的公共模型相比,它们表现出相似或更优的性能。总体而言,BloombergGPT在各种通用生成任务中表现出值得称赞的性能,在同类规模的模型中占据有利地位。

5 将LLM应用于金融应用的决策过程

5.1 确定LLM的必要性

在探索LLM解决方案之前,有必要确定对于给定的任务来说,是否真的有必要采用这种模型。Yang等人的工作中概述了LLM相对于较小模型的优势,总结如下:

利用预训练知识:LLM可以利用从预训练数据中获得的知识来提供解决方案。如果一项任务缺乏足够的训练数据或注释数据,但需要常识知识,LLM可能是一个合适的选择。

推理和新兴能力:LLM擅长涉及推理或新兴能力的任务。这一特性使LLM非常适合任务指令或预期答案不明确的任务,或处理分布外数据时。在金融咨询方面,客户服务中的客户请求通常表现出高度差异和复杂的对话。LLM可以作为虚拟代理在这种情况下提供帮助。

编排模型协作:LLM可以作为不同模型和工具之间的编排者。对于需要各种模型之间协作的任务,LLM可以作为编排者来整合和利用这些工具。目标是对模型解决方案管道进行稳健的自动化时,这种能力尤其有价值。

虽然LLM提供了巨大的功能,但无论是利用第三方API[33]还是微调开源LLM,它们的使用都会带来巨大的成本。因此,在完全致力于LLM之前,谨慎考虑传统模式是明智的。在任务有明确定义的情况下(例如回归、分类、排名),有大量带注释的训练数据,或者任务对常识知识或新兴能力(如推理)的依赖程度最低,在最初阶段依赖LLM可能不是必要的或合理的。

LLM在缺乏训练数据、需要常识知识或新兴能力时具有优势,适合处理分布外数据和高度差异的对话。LLM可以作为不同模型和工具之间的编排者,整合和利用各种工具。然而,使用LLM会带来巨大成本,因此在任务有明确定义、有大量带注释的训练数据或对常识知识或新兴能力依赖程度最低的情况下,在最初阶段依赖LLM可能不是必要的或合理的。

LLM在缺乏训练数据、需要常识知识或涉及推理的任务中具有优势,适合处理分布外数据。LLM可以作为不同模型之间的编排者,整合和利用各种工具。然而,使用LLM会带来巨大成本,因此在任务有明确定义、有大量带注释的训练数据或对常识知识或新兴能力依赖程度最低的情况下,在最初阶段依赖LLM可能不是必要的或合理的。

5.2 在财务任务上应用LLM的一般决策指导

使用LLM进行财务任务时,遵循决策指导框架以确保高效实施。框架分为四个级别,逐级成本增加。建议从级别1开始,当模型性能不令人满意时再升级。每个级别都有详细解释和成本范围。

一旦决定利用LLM进行财务任务,就可以遵循决策指导框架,以确保高效和有效的实施。该框架如图1所示,根据计算资源和数据要求将LLM的使用分为四个级别。通过逐级进行,与培训和数据收集相关的成本会增加。建议从级别1开始,只有当模型性能不令人满意时才转移到更高级别(2、3和4)。以下部分详细解释了每个级别的决策和行动块。桌子根据AWS和OpenAI等第三方服务的定价,给出了不同选项的大致成本范围。

使用LLM进行财务任务时,遵循决策指导框架以确保高效实施。框架分为四个级别,逐级成本增加。建议从级别1开始,当模型性能不令人满意时再升级。每个级别都有详细解释和成本范围。

5.2.1第1级:零样本应用。

第一个决策块决定是使用现有的LLM服务还是开源模型。如果输入的问题或背景涉及机密数据,则有必要继续进行1A操作块,该块涉及自行托管开源LLM。截至2023年7月,有几种选择,包括LLAMA、OpenLLAMA、Alpaca和Vicuna。LLAMA提供大小从7B到65B的模型,但它们仅限于研究目的。OpenLLAMA提供3B、7B和13B模型的选项,并支持商业用途。Alpaca和Vicuna基于LLAMA进行了微调,提供7B和13B选项。部署自己的LLM需要一台具有合适GPU的强大本地机器,例如用于7B模型的NVIDIA-V100或用于13B模型的NVIDIA-A100、A6000。

如果不考虑数据隐私,建议选择 OpenAI 的 GPT3.5/GPT4 或谷歌的 BARD 等第三方 LLM。此选项允许进行轻量级实验和早期性能评估,而无需支付重大的部署成本。产生的唯一成本是与每个API调用相关的费用,通常基于输入长度和模型输出的令牌计数。

决策块决定使用现有LLM服务或开源模型。涉及机密数据时,需进行1A操作块,包括LLAMA、OpenLLAMA、Alpaca和Vicuna。LLAMA提供7B至65B模型,仅限研究目的;OpenLLAMA提供3B、7B和13B模型,支持商业用途。Alpaca和Vicuna基于LLAMA微调,提供7B和13B选项。部署需GPU强大本地机器。无数据隐私考虑时,建议选择GPT3.5/GPT4或谷歌BARD等第三方LLM,费用与API调用相关。

5.2.2 级别 2:少样本应用。

如果模型在第一级的性能对应用程序来说是不可接受的,如果有几个示例问题及其相应的答案可用,可以探索少样本学习。少样本学习在以前的许多工作中显示出优势。核心思想是除了提出具体问题外,还提供一组示例问题及其相应的答案作为背景。与少样本学习相关的成本与前几个级别相似,除了每次都需要提供示例。一般来说,要达到良好的性能可能需要使用1到10个示例。这些示例可以在不同的问题之间是相同的,也可以根据手头具体的问题进行选择。挑战在于确定最佳示例数量和选择相关示例。这个过程涉及实验和测试,直到达到所需的性能边界。

5.2.2 级别 2:少样本应用。当模型性能不佳时,可尝试少样本学习,提供示例问题及其答案。成本与前几个级别相似,每次需提供示例。一般需1-10个示例。挑战在于确定最佳示例数量和选择相关示例,需实验和测试以达到所需性能。

5.2.3 3级:工具增强生成和微调。

在复杂任务中,可使用外部工具或插件与LLM结合,如计算器、搜索引擎等。工具与LLM的集成需提供工具描述,可能面临成本较高、输入长度限制等问题。若性能不佳,可尝试微调LLM,需要注释数据、计算资源GPU、CPU等)和专业知识。,如表1所示

如果手头的任务非常复杂,情境学习不能产生合理的表现,那么下一个选择是利用外部工具或插件与LLM结合,假设有一系列相关的工具/插件可用。例如,一个简单的计算器可以帮助完成与算术相关的任务,而搜索引擎对于知识密集型任务来说是不可或缺的,例如查询特定公司的首席执行官或确定市值最高的公司。

通过提供工具的描述,可以实现工具与LLM的集成。由于工具的开发和作为背景所需的输入序列较长,这种方法的相关成本通常高于少数学习。然而,可能会出现连接工具描述过长的情况,超过LLM的输入长度限制。在这种情况下,可能需要额外的步骤,如简单的工具检索或过滤器,以缩小选择工具的范围。部署成本通常包括使用LLM的成本以及使用工具的成本。

如果上述选项无法产生令人满意的性能,可以尝试微调LLM。此阶段需要合理数量的注释数据、计算资源(GPU、CPU等)和微调语言模型的专业知识,如表1所示。

在复杂任务中,可使用外部工具或插件与LLM结合,如计算器、搜索引擎等。工具与LLM的集成需提供工具描述,可能面临成本较高、输入长度限制等问题。若性能不佳,可尝试微调LLM,需要注释数据、计算资源GPU、CPU等)和专业知识。,如表1所示

5.2.4 第四级:从头开始训练自己的LLM。

如果结果仍然不令人满意,唯一的选择是从头开始训练特定领域的LLM,类似于彭博社GPT所做的那样。然而,这种选择伴随着巨大的计算成本和数据要求。它通常需要数百万美元的计算资源和数万亿个标记的数据集上的训练。训练过程的复杂性超出了本次调查的范围,但值得注意的是,专业团队可能需要几个月甚至几年的时间才能完成。

通过遵循这一决策指导框架,金融专业人士和研究人员可以浏览各个级别和选项,做出明智的选择,以符合他们的具体需求和资源限制。

5.2.4 第四级:从头开始训练LLM。

若结果不满意,需从头开始训练特定领域LLM,但伴随高昂计算成本和数据要求,通常需数百万美元和数万亿标记数据集。训练过程复杂,需专业团队数月甚至数年完成。遵循此框架,金融专业人士和研究人员可做出明智选择,符合需求和资源限制。

5.3 评估

金融领域LLM评估可通过多种方法进行,包括直接评估模型在下游任务中的表现。评估指标可分为准确性和性能两类。准确性包括回归和分类指标,性能包括特定任务中的表现。评估可在历史数据、回溯测试或线上实验进行。除了特定任务评估,还可应用LLM通用指标,如综合评估系统,涵盖准确性、公平性、鲁棒性、偏见等方面。

金融领域LLM的评估可以通过多种方法进行。一种直接评估方法是评估模型在下游任务中的表现。基于提供的分类,评估指标可分为两大类:准确性和性能。准确性类别可进一步分为回归指标(如MAPE、RMSE、𝑅 2 )和分类指标(召回率、精确度、F1评分)。性能类别包括直接评估模型在特定任务中的表现的指标或测量,如测量交易相关任务中的总利润或夏普比率。这些评估可以使用历史数据、回溯测试模拟或在线实验进行。虽然性能指标在金融领域往往更重要,但确保准确性指标与性能相一致以确保有意义的决策和防止过拟合至关重要。

除了特定任务的评估,还可以应用用于LLM的一般指标。特别是,在评估现有LLM或微调LLM的总体质量时,可以利用中提出的综合评估系统。该评估系统涵盖了各种场景的任务,并纳入了不同方面的指标,包括准确性、公平性、鲁棒性、偏见等。它可以作为在金融应用背景下选择语言模型或评估自己模型的指南。

金融领域LLM评估可通过多种方法进行,包括直接评估模型在下游任务中的表现。评估指标可分为准确性和性能两类。准确性包括回归和分类指标,性能包括特定任务中的表现。评估可在历史数据、回溯测试或线上实验进行。除了特定任务评估,还可应用LLM通用指标,如综合评估系统,涵盖准确性、公平性、鲁棒性、偏见等方面。

5.4 限制

虽然LLM在金融领域应用取得重大进展,但需承认其局限性,主要挑战是虚假信息产生和偏见。为确保信息准确性和减轻幻觉,可实施检索增强生成等措施。为解决偏见问题,可采用内容审查和输出限制技术来控制生成内容并减少偏见。在监管和治理方面,LLM的可解释性有限,需持续研究并实施保障措施以确保伦理和负责任地使用。

虽然在将LLM应用于金融应用领域方面取得了重大进展,但重要的是要承认这些语言模型的局限性。两个主要挑战是虚假信息的产生和偏见的体现,如种族、性别和宗教偏见。在金融行业,信息的准确性对于做出合理的财务决策至关重要,公平性是所有金融服务的基本要求。为了确保信息的准确性和减轻幻觉,可以实施检索增强生成等额外措施。为了解决偏见问题,可以采用内容审查和输出限制技术(如仅从预定义列表中生成答案)来控制生成的内容并减少偏见。

LMM在监管和治理方面存在潜在挑战。虽然与传统的深度学习模型相比,LLM通过在正确提示时为生成的答案提供推理步骤或思维过程,提供了更高的可解释性,但LLM仍然是一个黑匣子,其生成的内容的可解释性非常有限。

解决这些局限性并确保在金融应用中伦理和负责任地使用LLM是至关重要的。持续的研究、开发稳健的评估框架以及实施适当的保障措施是充分利用LLM的潜力同时减轻潜在风险的重要步骤。

虽然LLM在金融领域应用取得重大进展,但需承认其局限性,主要挑战是虚假信息产生和偏见。为确保信息准确性和减轻幻觉,可实施检索增强生成等措施。为解决偏见问题,可采用内容审查和输出限制技术来控制生成内容并减少偏见。在监管和治理方面,LLM的可解释性有限,需持续研究并实施保障措施以确保伦理和负责任地使用。

6 结论

本文对金融人工智能LLM的新兴应用进行了调查,围绕解决方案和采用指导两个关键支柱。在解决方案中,回顾了利用LLM进行金融的不同方法,实验表明其性能显著提高。在采用指导中,提出了一种结构化框架,用于根据约束选择最佳LLM策略。这项调查综合了将LLM应用于金融人工智能转型的最新进展,并为采用提供了实用的路线图。

在解决方案中,我们回顾了利用LLM进行金融的不同方法,包括利用预训练模型、对领域数据进行微调和训练定制LLM。实验结果表明,在情感分析、问答和总结等自然语言任务中,与通用LLM相比,其性能显著提高。

为了提供采用指导,我们提出了一种结构化框架,用于根据数据可用性、计算资源和性能需求等约束来选择最佳的LLM策略。该框架旨在通过指导从业者从低成本实验到严格定制来平衡价值和投资。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 26
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值