目前LLM已经广泛应用于金融、法律和生物医学等特定领域。然而,流行的方法主要采用直接预测范式,生成的答案缺乏可解释性,在高风险领域,用户难以信任缺乏解释的结果。
本文提出Domaino1s,通过监督微调与树搜索增强LLMs在领域任务上的推理能力。同时构建了用于微调模型的CoT-stock2k和CoT-legal-2k数据集,提出选择性树探索方法以探索解空间并采样最优推理路径,还引入PROOF-Score新指标评估领域模型的可解释性。
实验表明,在股票投资推荐和法律推理问答任务上,Domaino1s表现优异且具备良好的可解释性。
摘要
当前的LLM在高风险领域(如金融投资和法律问答)中生成简短答案,缺乏推理过程和解释,降低用户决策信心。原始的链式推理(CoT)方法缺乏自我纠错机制。
本文提出Domaino1s,通过监督微调和树搜索增强LLM在领域任务中的推理能力。构建了CoT-stock2k和CoT-legal-2k数据集,以激活领域特定的推理步骤。提出选择性树探索(Selective Tree Exploration),自发探索解决方案空间,采样最佳推理路径。引入PROOF-Score评估指标,补充传统准确性指标,提供更丰富的评估维度。在股票投资推荐和法律推理问答任务上,Domaino1s表现优异且具备良好的可解释性。
简介
大型语言模型(LLMs)在金融、法律和生物医学等领域被广泛应用于推荐和问答任务,但其直接预测方法导致缺乏可解释性,影响用户信任。思维链(CoT)推理增强了模型的逐步思考能力,但其单次生成的推理链缺乏错误修正机制,可能导致后续推理受损,增加法律和伦理风险。新引入的o1型模型在数学、物理和编程等领域表现优越,具备多阶段推理能力,推理链更长,推理时间更长,但在高风险领域的应用仍未被探索。
本文设计Domaino1s以提供高风险领域问题的可解释答案,包括Domaino1s-finance和Domaino1s-legal两个模型变体。通过GPT-4o生成CoT数据,构建CoT-stock-2k和CoT-legal-2k数据集进行监督微调,使用26个特殊标记明确区分推理过程的不同步骤。引入Selective Tree Exploration方法,通过每个推理步骤的平均困惑度决定是否探索新路径,以寻找最佳推理路径,平衡搜索性能和时间成本。强调评估领域模型的可解释性,提出新评估指标PROOF-Score,关注推理完整性、领域安全性和事实准确性。Domaino1s在股票投资推荐和法律推理问答数据集上表现优异,展示其在高风险领域任务中的推理能力。
相关工作
特定领域的LLM
LLM在特定领域应用的三种方法:从零开始训练、微调和提示学习。
- 从零开始训练(如BloombergGPT)效果好,但需大量计算资源和数据。
- 微调是更具成本效益的选择,使用GPT-4或低成本自动化方法生成微调数据。
- 提示学习通过模板工程或知识检索增强模型能力,无需修改参数。
o1型模型通过微调赋予LLM CoT推理能力,并通过多次搜索优化推理路径。
单次推理 vs. 多次推理
Prompt-based 方法(如 CoT)通过优化提示模板提升单次推理能力,但中间推理错误会传播。Search-based 方法探索多个推理路径,将每个推理步骤视为树中的节点,选择最佳路径以提高推理质量。
推理路径抽样
研究表明,采样不同的推理路径能提升数学推理表现,优于贪婪解码。Best-of-N搜索生成N个完整答案,便于选择最佳结果,但可能遗漏高质量的中间推理步骤。句子级束搜索生成多个候选句子并选择最佳,但可能陷入局部最优。阶段级束搜索在每个推理步骤生成和选择最佳候选,提供了一种折中方案。
方法
Domaino1s包含两个主要步骤:
- 促进渐进推理过程。
- 通过树搜索优化推理路径,提升推理性能。
预备知识
解决问题的过程可分为多个推理步骤,状态 S_t 包含从步骤 0 到 t 的所有推理步骤。动作 a_t 定义为选择下一个推理步骤 s_{t+1}。
LLM 作为策略模型,通过自回归生成 s_{t+1} 实现状态转移。为指导 LLM 选择合理的推理步骤,定义了价值函数 V(s_{t+1}) 来评估预期回报。
增强推理能力
为提升Domaino1s在金融和法律领域的推理能力,采用监督微调生成CoT风格的响应。构建了两个新数据集:CoT-stock-2k(股票投资推荐)和CoT-legal-2k(法律推理QA)。
股票投资推荐数据集包含2020-2022年间5个行业前5大股票的价格和推文信息,任务是预测下一个交易日的股价走势。使用Qwen-2.5-Instruct生成每日推文摘要,并利用GPT-4o生成10个结构化推理步骤的CoT数据。结构化推理步骤包括:摘要、历史背景、估值、市场规模与主导地位、战略举措、投资者情绪、风险与关注、近期表现、整合、整体影响。
法律推理QA数据集包含多种法律推理问题,使用GPT-4o生成4个结构化推理步骤的CoT数据。结构化推理步骤包括:摘要、推理、证据、结论。在微调过程中,去除特殊标记,允许Domaino1s自主组织推理步骤。
方案扩展和采样
模型经过监督微调后能够输出链式推理(CoT)格式的响应。为增强推理能力,模型可以自主探索解决方案空间并扩展推理路径。在采样过程中,引入V(s t+1)评估推理步骤的预期回报。V(s t+1)可以通过直接引入或训练步骤级奖励模型构建,但会增加训练和推理开销。
本文采用更直接的方法,使用生成s t+1时的困惑度p作为V(s t+1)。提出选择性树探索(Selective Tree Exploration)用于解决方案扩展和采样,包含多个阶段。
- 计算生成步骤中令牌的困惑度值p。
- 若p ≥ θ,重新生成直到p < θ或达到最大重生次数K;若所有K次生成的p均不小于θ,则选择p最小的候选。
- 重复以上步骤,直到生成完整答案。
Selective Tree Exploration在搜索性能与时间成本之间取得平衡,θ值的不同设置影响搜索策略。通过路径探索与扩展,可以找到更优的推理路径,减少中间步骤错误导致的结果不准确。
实验
评估Domaino1s在股票投资推荐和法律推理问答任务中的表现。
- RQ1:Domaino1s在回答准确性上与其他LLM方法的比较。
- RQ2:准确性评估指标在领域任务中的局限性及改进方法。
- RQ3:微调和解决方案扩展与采样如何提升Domaino1s的表现。
实验设置
**基线:**Domaino1s在高风险领域任务中与通用和领域特定LLM进行比较。通用LLM包括Qwen2.5-Instruct和Llama-3Instruct,领域LLM包括金融和法律相关模型。
- 金融领域LLM:包括Finance-LLM、Finance-Chat、Finance-Llama-3等。
- 法律领域LLM:包括Open-Australian-LegalLLM、DISC-LawLLM、Law-LLM等。
数据集:
- 股票投资推荐任务使用Koa等提供的股票预测数据集,包含7866个测试问题,基于推文预测股票涨跌。
- 法律推理QA任务使用LegalBench数据集,包含35053个测试问题,涵盖规则应用、解释和修辞理解等类别。
**实施细节:**Domaino1s基于Qwen-2.5Instruct开发,微调阶段设置学习率、轮次、批量大小等参数。
预测性能(RQ1)
对比Domaino1s与基线模型,评估答案准确性,结果见表1和表2。使用GPT-3.5-turbo-16k提取无法直接解析的答案,确保公平比较。股票预测准确性可能受随机猜测影响,MCC作为评估指标考虑真阳性和假阳性比例。
Domaino1s在几乎所有任务上优于基础模型Qwen-2.5-Instruct,尽管仅用少量数据微调。Domaino1s和Domain-CoT在准确性和MCC上表现最佳,尤其在法律推理任务中超越专门训练的LLM。法律LLM虽有领域知识,但缺乏推理能力,无法得出正确答案。
可解释性评估管道(RQ2)
传统评估指标(如准确率)难以区分模型的真实理解能力与过拟合现象。在股票投资推荐任务中,Domaino1s-finance能综合考虑多种情感推文,而Finance-Llama-3则倾向于依赖主导情感,导致相似的准确率但不同的理解深度。
法律推理任务中,Law-Chat虽然准确率高,但多为随机回答,Domaino1s-legal因缺乏必要条件而拒绝回答,显示准确率不足以评估模型的真实能力。针对高风险领域,提出PROOF-Score评估模型的推理完整性、安全性和事实准确性,旨在提高模型响应的可解释性。Domaino1s在PROOF-Score评估中表现优异,尽管未专门训练,表明其内在考虑了这些因素。
消融分析(RQ3)
**增强推理微调。**Domain-CoT在所有数据集上相较于基础模型Qwen2.5-Instruct表现出性能提升,证明推理增强微调提升了模型在领域任务上的推理能力。
**解决方案扩展与采样。**在Scalr数据集上,Selective Tree Exploration在K=3的设置下,性能与其他基线方法相当或更好,同时推理时间更短。
**可扩展性评估。**随着K和θ的变化,Selective Tree Exploration的性能提升明显,K增加和θ减少均能提高模型准确性,但会延长推理时间。最终设置为K=2,θ=1.1。
限制
Domaino1s的Selective Tree Exploration方法在搜索性能与计算成本之间取得平衡,但额外的推理时间可能影响实时应用。使用GPT-4o构建的高质量CoT数据集(每个领域2,000个示例)可能限制模型处理极端稀有或复杂案例的能力。尽管PROOF-Score提供了全面的评估框架,但对LLMs作为评判者的研究表明,评估指标的进一步优化可能是有益的。当前实现集中于股票推荐和法律推理任务,需进一步研究其在其他领域应用的普适性。未来研究方向包括优化推理效率、扩展训练数据集和拓展框架至更广泛的领域应用。
总结和未来工作
本文引入Domaino1s及其金融和法律领域的两个模型变体,旨在引导LLMs提供可解释的高风险领域答案。构建两个数据集以微调Qwen-2.5-Instruct,提出选择性树探索以实现多阶段推理。在数据集上的优越表现显示Domaino1s在高风险领域的潜力。
未来计划构建更大训练数据集以增强领域模型的推理能力,并创建使用领域特定预训练基础模型的Domaino1s变体,以更好地解决需要领域专业知识的任务。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。