两种利用 LLM 进行摘要质量评估的方法:GPTScore 和 GPTRank

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.Exploring Transfer Learning For End-To-End Spoken Language Understanding

本研究探讨了端到端语音语言理解中的迁移学习方法。现有的语音助手如Alexa、Siri和Google Assistant采用两阶段的语音语言理解管道,首先是自动语音识别(ASR)组件处理客户语音并生成文本转录,然后是自然语言理解(NLU)组件将转录映射到可操作的假设。端到端(E2E)系统直接从语音生成假设更具吸引力。这些系统被证明更小、更快、优化更好。然而,它们需要大量的端到端训练数据,并且没有利用已经可用的ASR和NLU训练数据。在本文中,我们提出了一种E2E系统,它设计为同时训练多个语音到文本任务(如ASR(语音转录)和SLU(语音假设))和文本到文本任务(如NLU(文本假设))。我们称这为音频文本全任务(AT-AT)模型,并展示了它在有限数据训练的端到端模型性能上胜出。我们在内部音乐数据集和两个公开数据集FluentSpeech和SNIPS Audio上验证了这一结果,其中我们取得了最先进的性能。由于我们的模型可以处理语音和文本输入序列并学会预测目标序列,它还允许我们在仅从新领域获取的文本假设数据(没有任何语音)上进行零样本端到端语音语言理解,我们称这种能力为零样本端到端性能的新基准。我们发布了为TOP数据集收集的音频数据,供未来研究使用。
在这里插入图片描述
链接:https://www.aminer.cn/pub/5fdb210391e0118a02c4f475/?f=cs

2.Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

这篇论文介绍了一种高质量的实时同声传译系统CLASI,该系统借鉴了专业人工翻译员的操作方式,采用了数据驱动的读写策略,旨在平衡翻译质量和延迟。为了解决专业术语翻译的挑战,CLASI利用了多模态检索模块来获取相关信息,以增强翻译。该系统得到了大型语言模型(LLMs)的支持,能够考虑输入音频、历史上下文和检索信息,生成容错性翻译。实验结果显示,CLASI在多个翻译方向上显著优于其他系统。通过使用专业人工翻译员匹配的人评测指标——有效信息比例(VIP),CLASI在评估中表现出了较高的信息传达成功率。在现实世界的场景中,演讲常常会出现不流畅、非正式和模糊的情况,CLASI仍然能够达到81.3的VIP值。相比之下,最先进商用或开源系统只能达到35.4的VIP值,在其他系统中这一数值甚至不到13。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66aaee1c01d2a3fbfca7fc0f/?f=cs

3.Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

本文研究了通过增加生成样本数量来扩展推理计算的方法。实验结果显示,覆盖率(即任何尝试解决问题的比例)在多个任务和模型中,随着样本数量的增加而显著提高,最多可扩展四个数量级。在代码和正式证明等领域,样本数量的增加可以直接转化为性能提升。将重复抽样技术应用于SWE-bench Lite基准测试,结果表明,使用DeepSeek-V2-Coder-Instruct模型从15.9个样本增加到5个样本时,问题解决的比例超过了现有的最佳模型。此外,从成本效益的角度来看,使用五个DeepSeek模型的样本比购买一个GPT-4o或Claude 3.5 Sonnet的样本更加划算。研究还发现,覆盖率与样本数量之间的关系通常为对数线性,可以用指数幂律模型来描述,这表明存在推理时间扩展定律。最后,作者指出,在没有自动验证器的领域中,从多个生成的样本中识别正确样本仍然是未来研究的重点。例如,在使用Llama-3模型解决数学问题时,覆盖率可以从样本集合(如多数投票或奖励模型)中获得超过95%的解决方案,但在几百个样本之后,增长会趋于平稳,并不能完全随着样本预算的增加而扩大。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66aaeef601d2a3fbfca99cce/?f=cs

4.Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models

本文探讨了现代语言模型(LMs)在遵循人类指令和忠实度之间存在的权衡问题。研究表明,在训练LMs时,遵循开放性指令与在给定背景下落实回应之间存在明显的权衡。例如,LLaMA-7B模型在遵循指令的数据集上进行微调后,其忠实度会降低。反之,指令调整后的Vicuna-7B模型在需要上下文落实的任务上进一步优化时,其遵循指令的表现会下降。常见的解决方法是采用多任务学习(MTL)进行数据混合,但效果并不理想。本文提出了一种简单而有效的方法——基于拒绝采样的持续自我指令调整(ReSet),其性能显著优于传统的MTL。研究发现,数据越少反而效果越好,使用质量高但数据量减少三倍的训练数据(即数据量减少到原来的三分之一)就能获得更优的结果。这项研究为理解语言模型对齐训练中的目标偏差提供了更深入的认识。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66aaeebb01d2a3fbfca92cdc/?f=cs

5.On Learning to Summarize with Large Language Models as References

本文研究了一种新的文本摘要模型学习范式,即在常用摘要数据集上,将大型语言模型(LLM)作为参考或金标准 Oracle。为了探讨与新学习设置一致的标准实践,我们提出了一种基于对比学习的训练方法,使用 LLM 作为摘要质量评估器。对于这种基于奖励的训练方法,我们研究了两种利用 LLM 进行摘要质量评估的不同方法,即 GPTScore 和 GPTRank。我们在 CNN/DailyMail 数据集上的实验表明,通过我们提出的训练方法训练的小型摘要模型,其性能可以与参考 LLM 相媲美或超过,后者由 LLM 自己评估。这突显了我们提出的新范式在提高模型性能方面的有效性,以及它的效率,因为它只需要少量预算来访问 LLM。我们发布了训练脚本、模型输出和基于 LLM 的评估结果,以促进未来的研究。
在这里插入图片描述
链接:https://www.aminer.cn/pub/646d8642d68f896efa0a30df/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 17
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值