大模型日报|今日必读的 6 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.苹果推出 DLM:挑战语音识别纠错模型的极限

长期以来,语言模型(LM)一直被用于改善自动语音识别(ASR)系统的效果,但它们并不能发现 ASR 系统所犯的错误。纠错模型被用来修正 ASR 错误,但与传统的 LM 相比,纠错模型的改进甚微,这主要是由于缺乏有监督的训练数据。

在这项工作中,苹果团队提出了一种使用大量合成数据训练的按比例纠错模型 Denoising LM(DLM),其大大超越了之前的尝试,同时实现了最先进的 ASR 性能。

他们使用文本到语音(TTS)系统合成音频,并将其输入 ASR 系统,从而产生噪声假设,然后将其与原始文本配对来训练 DLM。DLM 有几个关键要素:1)放大模型和数据;2)使用多讲者 TTS 系统;3)结合多种噪声增强策略;4)新的解码技术。通过 Transformer-CTC ASR,DLM 在 Librispeech 上的 test-clean 和 test-other 测试中分别实现了 1.5% 和 3.3% 的词错误率(WER),这是在不使用外部音频数据的情况下报告的 SOTA,甚至可与使用外部音频数据的自监督方法相媲美。

此外,单个 DLM 适用于不同的 ASR,其性能超过了传统的基于 LM 的波束搜索重分法。这些结果表明,经过适当研究的纠错模型有可能取代传统的 LM,成为 ASR 系统准确性达到 SOTA 的关键。

论文链接:
https://arxiv.org/abs/2405.15216

2.超越模式匹配的学习?评估 LLM 的数学理解能力

大型语言模型(LLMs)在辅助科学发现方面,取得了长足的进步。

受将 LLMs 用作一般科学助手的启发,来自马克斯·普朗克智能系统研究所、剑桥大学、蒙特利尔大学和 Google DeepMind 的研究团队,通过 LLMs 对解决问题所需的不同数学技能的理解来评估 LLMs 的领域知识。

特别是,他们不仅要研究预训练模型已经知道了什么,还要研究它是如何通过利用数学中复杂的知识结构,在上下文学习或指令微调过程中学习信息的。

受神经正切核(NTK)的启发,他们提出了 NTKEval 来评估 LLM 的概率分布在不同类型数学数据的训练中发生的变化。他们的系统分析发现了在上下文学习过程中领域理解的证据。相比之下,无论在不同数据上进行训练,某些指令微调都会导致类似的成绩变化,这表明不同技能之间缺乏领域理解。

论文链接:
https://arxiv.org/abs/2405.15485

3.MagicPose4D:利用外观和运动精确控制 4D 内容生成

现有方法主要依靠文本提示来生成 4D 内容,但往往无法准确定义复杂或罕见的运动。

为了解决这一局限性,来自伊利诺伊大学香槟分校和南加州大学的研究团队,提出了一种在 4D 生成过程中对外观和运动进行精细控制的新型框架——MagicPose4D。与传统方法不同,MagicPose4D 接受单目视频作为运动提示,从而实现精确和可定制的运动生成。MagicPose4D 包括两个关键模块:

1)双阶段 4D 重建模块分两个阶段运行。第一阶段的重点是使用精确的 2D 监督和精确度较低但几何信息丰富的 3D 伪监督捕捉模型的形状,而不强加骨架约束;第二阶段利用第一阶段获得的更精确的伪 3D 监督来完善模型,并引入基于运动链的骨架约束来确保物理上的合理性。此外,他们还提出了一种全局-局部倒角损失方法,可使预测网格顶点的整体分布与监督值保持一致,同时无需额外标注即可保持部件级对齐。

2)跨类别运动转移模块利用 4D 重建模块的预测,并使用基于运动链的骨架来实现跨类别运动转移。它通过动态刚度确保帧间的平滑转换,无需额外训练即可实现很好的泛化。

大量实验证明,MagicPose4D 显著提高了 4D 内容生成的准确性和一致性,在各种基准测试中均优于现有方法。

论文链接:
https://arxiv.org/abs/2405.14017v1
项目地址:
https://boese0601.github.io/magicpose4d/

4.好过人工翻译:利用多智能体协作翻译超长文学文本

机器翻译(MT)领域的最新进展大大提高了各个领域的翻译质量。然而,由于文学文本的复杂语言、形象表达和文化细微差别,其翻译仍然是一项艰巨的挑战。

在这项工作中,来自莫纳什大学、腾讯和澳门大学的研究团队提出了一个基于大型语言模型(LLMs)的新型多智能体框架——TransAgents,通过利用多个智能体的集体能力来反映传统的翻译出版流程,从而满足翻译文学作品的复杂需求。

为了评估这一系统的有效性,他们提出了两种创新的评估策略:单语人类偏好(MHP)和双语 LLM 偏好(BLP)。MHP 从目标语言单语读者的角度评估译文,而 BLP 则使用高级 LLM 直接比较译文和原文。

实证研究结果表明,尽管 d-BLEU 分数较低,但与人类撰写的内容相比,人类评估者和 LLM 都更喜欢 TransAgents 的译文,尤其是在需要特定领域知识的体裁中。他们还通过案例研究强调了 TransAgents 的优势和局限性,并提出了未来的研究方向。

论文链接:
https://arxiv.org/abs/2405.11804

5.英伟达推出 ChatQA,在 RAG、QA 方面超过 GPT-4

在这项工作中,英伟达团队推出了 ChatQA,它是一套在检索增强生成(RAG)和对话式问题解答(QA)方面好过 GPT-4 的模型。

为了提高生成能力,他们提出了一种两阶段指令微调方法,该方法显著提高了 RAG 的性能。为了有效检索,他们提出了针对会话式 QA 优化的密集检索器,其结果可与其他先进的查询重写模型相媲美,同时大大降低了部署成本。他们还介绍了 ChatRAG Bench,其中包括十个数据集,涵盖了对 RAG、表格相关 QA、算术计算和涉及无法回答问题的场景的全面评估。

ChatQA-1.0-70B(得分:54.14)是基于 Llama2(性能比 GPT-4 差的基础模型)构建的,在 ChatRAG Bench 上略微优于 GPT-4-0613(得分:53.90)和 GPT-4-Turbo-2024-04-09 (得分:54.03),而无需依赖 OpenAI GPT 模型的任何合成数据。值得注意的是,Llama3-ChatQA-1.5-70B 模型的准确度超过了 GPT-4-Turbo-2024-04-09,提高了 4.4%。

此外,为了推动这一领域的研究,他们向社区开源了模型权重、指令微调数据、ChatRAG Bench 和 retriever。

论文链接:
https://arxiv.org/abs/2401.10225
项目地址:
https://chatqa-project.github.io/

6.微软、Mila 新研究:通过构建和重用 LoRA 库实现模块化 LLM

基础大型语言模型(LLM)的参数高效适配越来越多,这就要求人们研究是否可以重复使用这些适配器来提高新任务的性能。

来自 Microsoft Research 和 Mila 的研究团队研究了如何在给定多任务数据的情况下以最佳方式建立适配器库,并设计了通过这种库中的路由来实现零样本和监督任务泛化的技术。

他们对建立该库的现有方法进行了基准测试,并提出了基于模型的聚类(MBC),这是一种根据适配器参数的相似性对任务进行分组的方法,可间接优化多任务数据集之间的转移。为了重新使用该库,他们提出了一种新颖的零样本路由机制 Arrow,它可以为新输入动态选择最相关的适配器,而无需重新训练。

他们用 Phi-2 和 Mistral 等几种 LLM 在大量(训练中)保留任务上进行了实验,验证了基于 MBC 的适配器和 Arrow 路由机制可为新任务带来卓越的泛化能力。

论文链接:
https://arxiv.org/abs/2405.11157

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值