分享10篇最新论文:涉及大模型Prompt调优、LLM安全、推理增强、图学习等热门方向!

引言

紧跟技术发展趋势,快速了解NLP领域最新动态。今天给大家分享10篇最新论文,其中涉及大模型应用、大模型Prompt调优、大模型安全、数学推理增强、预训练模型增强、LoRA改进、Mamba改进等热门研究方向。

工作流集成LLM

在这里插入图片描述

机器学习(ML)在许多组织中推动了数据驱动的应用发展,但其工作流程复杂、耗时且成本高。目前存在多种工作流程引擎,但用户难以掌握它们各自的API。为此,蚂蚁的研究人员开发了COULER系统,它可以通过自然语言描述生成ML工作流程,并为不同的工作流程引擎提供统一的编程接口,简化了用户的操作。COULER还通过自动缓存和自动调优提高了效率和容错性,减少了不必要的计算成本。在蚂蚁集团的实际应用中,COULER每天处理约22,000个工作流程,显著提高了资源利用率和工作流程的完成率。
在这里插入图片描述

LLM指令调优

在这里插入图片描述
在一个会话Session中,大模型很难遵循一系列的指令,因为在此过程中它们很有可能忽略其中的一部分。这将会影响大模型在复杂问题上的表现,此类问题解决方法需要多个中间步骤,例如多语言(翻译然后回答)和多模态(识别然后回答)任务。在这里插入图片描述
为此,本文作者在 LLaMA-2 70B、Mixtral-8×7B 等开源 LLM 进行了实证验证。针对当前数据中顺序指令的稀缺,本文作者提出了顺序指令调优(SIT),这是一种简单而有效的策略,可以自动增加指令调优数据,并使LLMs具备执行多个顺序指令的能力。在探索现有数据集(如Alpaca)中具有广泛中间任务的交错指令后,我们发现顺序指令调优模型在涉及推理、多语言和多模式能力的下游任务中始终优于传统指令调优基线。

大模型Prompt优化

在这里插入图片描述

当的提示设计(prompt enginerring),例如思维链(Chain-of-Thoughts),可以解锁 LLM 在不同领域的强大能力。然而,在处理涉及重复子任务和 / 或含有欺骗性内容的任务(例如算术计算和段落级别长度的虚假新闻检测)时,现有的提示策略要么受限于表达能力不足,要么会受到幻觉引发的中间错误的影响。在这里插入图片描述
为了使 LLM 更好地分辨并尽可能避免这种中间错误,来自南加州大学等研究人员提出了一种基于分治算法的提示策略。这种策略利用分治程序来引导 LLM,提升大模型分辨是非的能力。

图结构学习

图结构学习(Graph Structure Learning, GSL)旨在通过生成新的图结构来捕捉图结构数据中节点之间的内在依赖性和交互关系。图神经网络(Graph Neural Networks, GNNs)作为一种有前景的GSL解决方案,通过递归消息传递来编码节点间的相互依赖性。然而,许多现有的GSL方法过度依赖于作为监督信号的显式图结构信息,使它们容易受到数据噪声和稀疏性的挑战。在这项工作中,研究人员提出了GraphEdit方法,该方法利用大型语言模型(Large Language Models, LLMs)来学习图形结构数据中复杂的节点关系。通过对大型语言模型进行图结构指令调优以增强其推理能力,旨在克服显式图结构信息相关的限制,并提高图结构学习的可靠性。

该方法不仅有效地去除了噪声连接,还从全局视角识别了节点间的依赖关系,为图结构提供了全面的理解。我们在多个基准数据集上进行了广泛的实验,以证明GraphEdit在不同设置下的有效性和鲁棒性。

LLM安全

Google等发表的最新的一篇研究文章指出,ChatGPT、 PaLM-2 等黑盒语言模型信息是非常容易窃取的,具体来说,在给定典型的 API 访问的情况下,作者攻击恢复了Transformer模型的嵌入投影层(直到对称性),且攻击花费不到 20 美元,提取了 OpenAI 的 Ada 和 Babbage 语言模型的整个投影矩阵。由此,我们首次确认这些黑盒模型的隐藏维度分别为 1024 和 2048。除此之外还恢复了 gpt-3.5-turbo 模型的精确隐藏维度大小,并估计恢复整个投影矩阵的查询成本低于2,000。未来模型攻击将会是一个比较值得注意的问题!

PLMs能力提升

在这里插入图片描述

在自然语言处理领域,预训练语言模型(PLMs)扮演着至关重要的角色,它可以根据任务需求,可迁移至各种下游任务中。然而,PLMs在适应新语言时面临挑战,尤其是在数据和计算资源受限的情况下。本文提出了一种通过「主动遗忘机制」,可在预训练期间增强PLMs语言可塑性的方法。实验结果表明,采用该机制的预训练模型在低数据环境下表现出更快的收敛速度,并且相比标准PLMs准确率高出21.2%。

LLM上下文增长

大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈,例如对话式AI系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆。为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院等联合提出无需额外训练的大模型长文本理解方法 InfLLM,利用少量计算和显存开销实现了 LLM的超长文本处理。

实验结果表明,InfLLM能够有效地扩展Mistral、LLaMA的上下文处理窗口,并在1024K上下文的海底捞针任务中实现100%召回。

Mamba增强

华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。DenseSSM 在保持训练并行性和推理效率的同时,通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型,如 Mamba 和 RetNet。

LLM数学推理增强

大型语言模型 (LLM) 在复杂的推理任务中显示出巨大的潜力,但其性能往往因缺乏高质量、以推理为重点的训练数据集而受到阻碍。为了解决这一挑战,本文提出了关键点驱动数据合成(KPDDS),这是一种新颖的数据合成框架,它通过利用来自真实数据源的关键点和样本对来合成问答对。KPDDS 通过严格的质量控制和显着的可扩展性确保新颖问题的生成。因此,我们推出了 KPMath,这是迄今为止为数学推理量身定制的最广泛的综合数据集,包含超过一百万个问答对。利用 KPMath 并通过额外的推理密集型语料库对其进行扩充,创建了全面的 KPMath-Plus 数据集。

在 KPMath-Plus 上微调 Mistral-7B 模型在 MATH 测试集上产生了 39.3% 的零样本 PASS@1 准确率,该性能不仅超过了其他微调的 7B 模型,而且还超过了某些 34B 模型 。

LoRA增强

大模型训练通常会遇到内存资源的限制。目前常用的内存减少方法低秩适应(LoRA),通过引入低秩(low-rank)适配器来更新模型的权重,而不是直接更新整个权重矩阵。然而,这种方法在预训练和微调阶段通常表现不佳,为此,本文作者提出了梯度低秩映射(Gradient Low-Rank Projection ,「GaLore」),这是一种允许「全参数」学习的训练策略,并且比 LoRA 等常见的低秩适应方法更节省内存,相比BF16内存减少了63.3%

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值