探索大模型进阶之路:指令微调、思维骨架、数学推理、InstructionGPT-4...

点击蓝字

c2928bc1c5e558f7a53254111688a421.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在当今人工智能领域,大模型已成为引领创新和变革的关键力量。指令微调是一项精密的任务,它让大模型能够更好地适应特定应用。同时,数学推理展示出大模型在解决数学难题和推理问题方面的巨大潜力,能够在科学研究、教育和实际工作中提供支持。2023年9月14日,AI TIME举办的第11期大模型系列活动邀请了南加州大学计算机系五年级博士生闫俊、清华大学博士后宁雪妃、加州大学伯克利分校统计系二年级博士生张锐麒、上海交通大学大四本科生魏来、清华大学统计中心博士袁正,五位嘉宾深入探讨了大模型在指令微调、思维骨架、数学推理等方面的最新进展。

Virtual Prompt Injection for Instruction-Tuned Large Language Models

闫俊:

指令微调通过将预训练语言模型在多样化的指令和回复数据上进行微调,使模型可以更好地遵循人类指令。然而由于高质量的指令调整数据获取较为困难,许多从业者会选择外包指令数据标注或下载第三方提供的指令微调数据集,从而增加了数据投毒的风险,导致模型在训练过程中可能被植入后门。闫俊在报告中提出了一种名为Virtua Prompt Injection (VPI)的攻击设定。攻击者可以通过向模型注入虚拟提示来对模型在特定场景下的行为进行细粒度控制,而无需篡改模型输入,从而实现持久和隐蔽的攻击。他具体介绍了一种通过指令微调数据投毒的方式来实现VPI攻击的方法。攻击者只需注入极少的污染数据,就可以对模型的行为产生显著影响。他进一步发现基于AlpaGasus的指令微调数据过滤可以在一定程度上防御这种投毒攻击。

SoT: 利用并行解码加速LLM的尝试

宁雪妃:

大型语言模型(LLMs)在自然语言处理方面表现出色,并革新了聊天机器人系统。然而,目前最先进的LLMs的推理过程较慢,限制了它们的交互使用。目前主流的LLMs采用的是顺序解码方法,这是高生成延迟的主要原因之一。宁雪妃在报告中提出了“思维骨架”(SoT)的概念,通过引导LLMs首先生成答案的骨架,然后并行进行API调用或批量解码来完成每个骨架点的内容。SoT不仅大大提高了速度,在11个不同的LLMs上最多提高了2.39倍,,未来还有可能在多个问题类别上提高答案的多样性和相关性。

Trained Transformers Learn Linear Models In-Context

张锐麒:

基于上下文学习是大语言模型的特殊能力。在基于上下文学习的时候,原先经过预训练的模型是不需要进行任何微调的,原模型的参数完全不会发生变化。张锐麒在报告中介绍了一种简化的Transformer架构,该架构具有一个单一的线性自注意力层,通过梯度流进行训练,以解决线性回归任务。该工作提供了对Transformer模型上下文学习机制的深入理解,展示了梯度流可以找到目标函数的全局最小值,描述在全局最小值处,Transformer如何实现与最佳线性预测器竞争的预测误差。

InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4

魏来:

通过预训练图像-文本对和在视觉语言指令数据上进行微调的双阶段训练过程,这些模型获得了遵循指令的能力。最近的研究表明,即使使用有限数量的高质量指令跟随数据,大型语言模型也可以达到令人满意的结果。本次报告中,魏来分享了一种新的大模型-InstructionGPT-4,它仅在一个由200个示例组成的小数据集上进行了微调,相当于MiniGPT-4对齐数据集中使用的指令跟随数据的约6%。他首先介绍了几个评估多模态指令数据质量的指标,并在这些指标的基础上提出了一个简单而有效的数据选择器,可以自动识别和过滤低质量的视觉语言数据。通过采用这种方法,InstructionGPT-4在各种评估中(例如视觉问答,GPT-4偏好)优于原始的MiniGPT-4,验证了少量但高质量的指令微调数据能够有效地使多模态大型语言模型生成更好的输出。

Scaling relationship on Learning Mathematical Reasoning with Large Language Models

袁正:

对于大型语言模型(LLM)来说,数学推理是一项具有挑战性的任务,而它与LLM容量的比例关系尚未得到充分研究。袁正介绍了该项工作的主要内容是研究预训练损失、监督数据量和增强数据量对监督LLM的推理性能的影响。研究结果表明,预训练损失是模型性能的更好指标,而不是模型参数数量。他通过应用不同数量的监督数据进行监督微调(SFT),并在实证研究中发现数据量和模型性能之间存在对数线性关系,发现更好的模型在扩大的监督数据集上改进的程度更小。同时,为了增加更多的数据样本以提高模型性能,他也提出了拒绝采样微调(RFT)方法。RFT使用监督模型生成和收集正确推理路径作为增强微调数据集。实验显示,具有更多不同推理路径的增强样本对LLMs的数学推理性能改进更大,而RFT对性能较低的LLMs也带来更多改进。

Panel

如何全面地评测大语言模型的能力?怎样平衡大语言模型的能力与安全性?

闫俊:目前还没有非常完善的评测方式,一般的操作是在Benchmark上评测模型的数学推理、代码编写等能力,还会通过对话指令和GPT-4或人工打分来衡量模型的指令遵循能力。这种方式的缺点是测试的场景不一定反映大模型真实的应用场景。一个比较重要的方向是采集真实用户的query分布用作测试,从而理解大模型在哪些方面的能力是需要重点提升的。关于模型的安全性,一方面是与幻觉、错误信息的问题,可以通过对齐或是scaling up的方式解决。另一方面是恶意使用的问题,当模型的功能越来越强大时,实用性与安全性就成了相互竞争的关系,所以如何权衡好这两者的关系,使得模型在推理阶段面对不合理请求能够自我防御是值得研究的方向。

宁雪妃:在做评测的过程中,使用最多的两种方式是用大模型代替人类进行评价或者人类自己审阅数据进行评测。在做大模型加速的研究时,我们使用的是传统的思路,即从模型层面进行优化或者使用有明确评价指标的数据集。平衡大语言模型的能力和安全性可以对模型进行针对性的安全培训,教会其避免生成不当或有危害性的内容,也可以对不合理的内容进行提前过滤。

张锐麒:全面评测大语言模型的能力涉及多个方面,包括语言理解、生成文本的质量、知识表示和应用能力等。对于大语言模型安全性的评估,显式地表现为对输出具有直接危害性的内容进行鉴别防御,而隐式地表现为在模型中添加“watermark”来区分人为生成与机器生成的数据,如何生成更加鲁棒的“watermark”使其适用于不同的应用场景是很有研究意义的。

袁正:全面评测大模型是一件非常困难的事情,目前仍然缺少一个工具可以稳健地评测模型对齐之后的能力。平衡大语言模型的能力和安全性也是非常重要的,学术界和开源社区对于这些仍然需要进行一些探索。

大模型微调方法能否有效地提高模型在特定任务上的性能?在实际应用中有哪些潜在的局限性?

闫俊:在一些传统模型就可以解决得很好的任务上,大模型是不太被需要的。大模型更适用没有大量标注数据的情况下,需要借助大模型的通用能力去适配的一些任务。在某些具体的任务中,大模型还是有局限性的,比如数学推理。

宁雪妃:微调是一种有效提高模型在特定任务上性能的方法。从效率的角度看,微调可以更快速地实现模型的定制,使其适应特定应用需求,这对于快速开发和部署实际应用非常有用。但是在效率问题方面,大模型有时也会在一些场景和任务中不适用。同时,微调也有可能导致模型遗忘在预训练阶段学到的一些知识,特别是在微调数据与预训练数据不相关的情况下。

张锐麒:大语言模型微调是一定可以提高模型在特定任务上的性能的,但是微调依赖于可用的任务相关数据,如果没有足够的数据,模型的性能可能受到限制。现在一般的训练模式是先预训练然后利用上下文学习,正在逐渐取代微调。

袁正:微调是可以明显提升模型在特定任务上的性能的。比如对于reasoning和code两类任务,进行微调之后如SFT方法较基准模型会有显著的改善,但是SFT也会导致模型损失一些其他方面的能力,还是需要再进行一些研究。

大模型在特定能力(如数学推理)方面的表现如何?如何充分发挥大模型在特定能力方面的优势?

闫俊:大模型预测下一个token的输出方式可能无法适应于各种复杂程度的推力问题。当推理的复杂度过大,在大模型预测过程中允许一些额外的运算辅助如打草稿、使用计算器可能会有帮助。模型对于多方面能力的综合掌握涉及到模型之间的各种能力如何平衡。如何通过一种合理的顺序让模型依次学习不同的能力以及防止灾难性遗忘都是值得研究的问题。

宁雪妃目前使用大语言模型进行推理主要有两种方式,一种是基于提示的方式,类似于模仿人的思维方式;另一种是基于工具的方式,但关键在于筛选数据构建合适的pipeline。我们要充分发挥大型语言模型在数学推理方面的优势,需要综合考虑任务设计、数据、模型架构和评估方法。

张锐麒:利用大模型进行数学推理主要是通过人为的提示指导大模型以类似人的方式进行思考,目前大模型在数学领域的表现是有局限性的,实现数学上的next token prediction是有本质困难的,未来如何实现更好的模式需要进一步探索和研究。

袁正:大型语言模型在数学推理方面表现出色,但其性能取决于任务和数据。可以选择与数学推理相关的任务,例如数学问题求解、逻辑推理或代数问题,确保任务设计具有挑战性,可以更好地评估模型的数学推理能力。同时我们也可以尝试构建涵盖不同难度级别和数学概念的数据集,更全面地测试模型在各种数学领域的能力。

整理:陈研

审核:闫俊、袁正、张锐麟、宁雪妃、魏来

往期精彩文章推荐

3c4d3c89f2f51361e2fcf6bd04cdf8f9.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1300多位海内外讲者,举办了逾600场活动,超600万人次观看

6a1396d94a14b6f1db3dc78e63bd76ac.png

我知道你

在看

~

9e088dc319a30e55bf604ddb9ef5d219.gif

点击 阅读原文 查看回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值