1 引言
自从首个大型语言模型(LLM)诞生,研究人员就一直在努力调整这些模型,使其能够更好地服务于不同领域。本文将简要介绍学界如何打造能够灵活应对各种金融任务的LLM模型的最新动态。
2 金融数据集
金融数据集的构建依托于各类金融文献,包括新闻报道、企业财报、证券文件、新闻稿,以及从网络和社交媒体上抓取的金融相关信息。
- FLUE(金融语言理解评估)基准测试包括5个不同的金融任务(论文:https://aclanthology.org/2022.emnlp-main.148/):
(1)情感分类:金融短语库(FPB) (https://huggingface.co/datasets/takala/financial_phrasebank)
(2)情感分析、问答:FiQA 2018 (https://huggingface.co/datasets/SALT-NLP/FLUE-FiQA)
(3)新闻标题分类:黄金商品新闻和维度 (https://www.kaggle.com/datasets/daittan/gold-commodity-news-and-dimensions)
(4)命名实体识别:贷款协议上的NER数据 (https://paperswithcode.com/dataset/fin)
(5)结构边界检测:FinSDB3 (https://sites.google.com/nlg.csie.ntu.edu.tw/finweb2021/shared-task-finsbd-3)
- 其他数据集:
(6)从推文和历史价格预测股票走势:stocknet-dataset (https://github.com/yumoxu/stocknet-dataset)
(7,8)从推文预测股票价格走势:BigData22(https://github.com/deeptrade-public/slot), CHRNN(https://github.com/wuhuizhe/CHRNN)
(9)金融数据上的数值推理:FinQA(https://github.com/czyssrs/FinQA) (论文 https://aclanthology.org/2021.emnlp-main.300/)
(10) 金融数据上的链式数值推理:ConvFinQA数据集(https://github.com/czyssrs/ConvFinQA) (论文 https://aclanthology.org/2022.emnlp-main.421/)
(11)推特金融新闻情感:TFNS (https://huggingface.co/datasets/zeroshot/twitter-financial-news-sentiment)
(12)AI4Finance小组的情感分析:NWGI (https://huggingface.co/datasets/zeroshot/twitter-financial-news-sentiment)
(13)金融文本中的关系提取:FinRed (https://github.com/soummyaah/FinRED/)
请注意,上述列表并不全面,仅包括了在指令微调基准测试中使用的数据集。
3 指令微调基准测试
指令微调是 LLM 微调中使用的众多技术之一。 微调的其他例子还有推理、路由、副驾驶、聊天、智能体
指令微调是一种针对特定指令或提示对模型进行精细调整的方法,可能包括对模型参数的调整,以提升其在特定任务上的表现。
截至目前,已有两组研究者提出将现有的数据集转化为适用于指令微调的数据集,具体格式如下:
- 模板结构:指令模板包括三个部分:指令提示、输入和答案输出。
这两个基准测试分别为:
-
FLARE(金融语言理解和预测评估):包含5个任务和9个数据集,具体任务包括:
这些数据集可以在GitHub和Hugging Face平台上找到。
-
情感分析:数据集[1, 2]
-
新闻标题分类:数据集[3]
-
命名实体识别(NER):数据集[4]
-
问答(Q&A):数据集[9, 10]
-
股票价格走势:数据集[7, 8, 9]
-
FinGPT:包含4个任务和7个数据集,具体任务包括:
同样,这些数据集也可以在GitHub和Hugging Face平台上找到。
-
情感分析:数据集[1, 2, 11, 12]
-
命名实体分析(NER):数据集[4]
-
新闻标题分类:数据集[3]
-
关系提取:数据集[13]
4 金融大型语言模型(FinLLMs)
为保持内容简洁,这里仅涉及自回归模型,不包括掩蔽语言模型如FLANGBert、FinBERT等。
以下是通过指令微调方法,基于上述基准测试进行微调的模型:
- FinGPT —— 这是一个开源模型,它从通用的大型语言模型(LLM)微调而来。FinGPT采用了低秩适应方法和指令微调技术。(论文 https://arxiv.org/abs/2306.06031)模型和代码:可以在GitHub和Hugging Face上找到。
图 1:为 FinGPT 提出的指令调整范式
-
Instruct-FinGPT —— 从通用LLM指令微调而来的开源模型(论文 https://arxiv.org/abs/2306.12659)
-
FinMA —— 同样是一个开源模型,它是通过指令微调从LlaMa模型优化而来,具体细节和效果可以参考图1中的描述。该模型在FLARE基准测试中使用了基准数据集,具体数据集信息请参见数据部分的介绍。(论文 https://arxiv.org/abs/2303.17564)模型和代码:同样可以在GitHub和Hugging Face上找到。
图 2:针对 5 项金融任务的 FinMA 多任务和多模式(文本、PDF 文件中的表格、时间序列数据)指令调整概览。
- BloombergGPT (https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/)这是由彭博社开发的一款专有模型,需要通过订阅来获取访问权限。相关论文提供了模型的详细信息。(论文 https://arxiv.org/abs/2303.17564)
为了深入了解这些模型的微调和评估过程,建议阅读相应的论文。特别是那些关于单任务与多任务微调的实验,它们能帮助我们更好地理解研究者是如何挑选和优化出性能最佳的模型的。
5 FinLLM排行榜
The FinAI社区(https://huggingface.co/TheFinAI)推出了一个排行榜,旨在衡量和评估各类大型语言模型(LLM)在FLARE基准测试中的表现,涵盖开源和封闭模型。通过观察不同模型的表现,我们可以发现哪些模型更擅长处理特定的金融任务,这对于选择合适的模型来构建金融应用具有重要意义。
排行榜显示了各种 LLM 在以下任务的金融数据上的表现:(1) 问题解答,(2) NER,(3) 文本摘要,(4) 股票走势预测,(5) 信用评分,(6) 情感分析。
想要了解最新的排行榜数据,请访问排行榜的实时页面。(https://huggingface.co/spaces/TheFinAI/FinBen)
6 金融领域中的AI应用
专业的LLM,如FinLLM,在金融领域具有广泛的应用潜力,具体包括:
-
个人(机器)财务顾问
-
投资组合优化
-
金融情感分析
-
风险管理
-
金融欺诈检测
-
信用评分
-
并购(M&A)预测
-
环境、社会和治理(ESG)评分
-
金融教育
-
从财务报告和收益电话中提取和分析信息
这些应用展示了AI在提升金融服务效率和准确性方面的重要作用。
零基础如何学习AI大模型
领取方式在文末
为什么要学习大模型?
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
大模型典型应用场景
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。
学习资料领取
如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
部分资料展示
一、 AI大模型学习路线图
整个学习分为7个阶段
二、AI大模型实战案例
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
三、视频和书籍PDF合集
从入门到进阶这里都有,跟着老师学习事半功倍。
四、LLM面试题
五、AI产品经理面试题
😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈