Big Model Weekly | 第38期

点击蓝字

0e50f694c63fe2fdb69be1e8c274a989.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

近期在语言模型方面的进展取得了显著的进步。GPT-4o作为一个新里程碑,实现了与人类的实时对话,展示了接近人类的自然流畅度。这种人机交互需要模型具备直接使用音频模态进行推理的能力,并能够流式生成输出。然而,这仍然超出了当前学术模型的能力范围,因为它们通常依赖额外的文本转语音(TTS)系统进行语音合成,导致不受欢迎的延迟。本文介绍了Mini-Omni,这是一个基于音频的端到端对话模型,能够实现实时语音交互。为了实现这一能力,作者提出了一种文本指导的语音生成方法,并在推理过程中采用批量并行策略以进一步提高性能。本研究的方法还有助于在最小程度上保留原始模型的语言能力,使其他工作能够建立实时交互能力。作者将这种训练方法称为“Any Model Can Talk”。此外,本文还介绍了VoiceAssistant-400K数据集,用于微调优化语音输出的模型。据作者所知,Mini-Omni是第一个完全端到端、开源的实时语音交互模型,为未来的研究提供了宝贵的潜力。

90420b583515da5ab691f64cef99154f.png

2cb61bbf0cecba5d3a18dc79cdacaf6c.png

4e60acdf4943739340c02df6fc3ec17d.png

0547bf43a917b1627ea438c0b7b9f93b.png

d06ba7fe5f966339dab548dac785269e.png


文章链接:

https://arxiv.org/pdf/2408.16725

02

Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts

效率、专业化以及对新数据分布的适应性是当前大型语言模型难以兼得的品质。专家混合模型(Mixture of Experts, MoE)架构因其固有的条件计算能力而备受关注,能够实现这些理想特性。在本研究中,作者专注于将密集型专家模型“升级”为MoE,旨在提高专业化程度,同时增加轻松适应新任务的能力。本文介绍了Nexus,这是一种增强型MoE架构,具有自适应路由功能,模型能够学习从领域表示中投影专家嵌入。这种方法允许Nexus在初始升级后灵活地添加新的专家,而无需对未见过的数据领域进行大规模MoE训练。实验表明,Nexus在初始升级阶段相较于基线实现了高达2.1%的相对增益,并且在使用有限的微调数据扩展MoE时实现了18.8%的相对增益。Nexus的灵活性对于建立一个开源生态系统至关重要,在这个生态系统中,每个用户都可以根据自己的需求不断组装自己的MoE组合。

caf1a615dda1b62e789915b46137de81.png

7d129dc645653152e9c52b67253ad494.png

0ac046b57109595531d27d8695320a34.png

9dbe04c8f1d56b5f25d93943a9258cc1.png

1902ccb1ccb04ce8e8e00ac782d27170.png

526806f05036d4b083f7004fa0528c8a.png


文章链接:

https://arxiv.org/pdf/2408.15901

03

CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation

本文介绍了CURLoRA,这是一种新颖的方法,用于对大型语言模型(LLMs)进行微调,它利用了在低秩适应(LoRA)背景下的CUR矩阵分解。本研究旨在解决LLM微调中的两个关键挑战:在持续学习过程中减轻灾难性遗忘和减少可训练参数的数量。作者提出了一种独特的CUR分解过程修改方法,使用倒置概率进行列和行选择,这起到了隐式正则化的作用,并将U矩阵初始化为零矩阵,仅对其进行微调。通过在多个数据集上的实验,本研究证明了CURLoRA在减轻灾难性遗忘方面优于标准LoRA。CURLoRA在保持任务间的模型稳定性和性能的同时,显著减少了可训练参数的数量。实验结果表明,CURLoRA在连续微调过程中,特别是在数据有限的情况下,能够实现非常好且稳定的任务准确性,同时保持基础模型的困惑度分数不变,与LoRA相比具有显著优势。

8700149e26ba868c5f23a44c0ddafd47.png

44611f2992a8209a1c4fb47f0e2b3634.png


文章链接:

https://arxiv.org/pdf/2408.14572

04

Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora

语言中的歧义对开发更高级的语言模型提出了挑战,特别是在偏好学习中,注释者之间的差异性导致用于模型对齐的标注数据集不一致。为了解决这个问题,作者引入了一种自策划方法,通过对直接在这些数据集上训练的代理模型进行预处理来增强偏好学习。本文方法通过自动检测和删除数据集中的模糊注释来增强偏好学习。通过广泛的实验验证了所提出方法的有效性,证明了在各种遵循指令的任务中性能的显著提高。该工作提供了一种简单可靠的方法来克服注释的不一致性,作为向更高级偏好学习技术发展的第一步。

497170d916caa7bbebe20f5701c8515a.png

12e1e45821b787d4c2c25b8cce25ba39.png

f1de982c9c31c9bcf105ad336942e058.png

457178004e9e4f40dd5ce0c1b9e56c9e.png

1a4a84a50f08179121c75b508818d6a3.png

50ee1d2e1cbaf9434e6935be6d081fc6.png

文章链接:

https://arxiv.org/pdf/2408.12799

05

Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning

在大型语言模型(LLMs)中,空间推理是体现智能的基础。然而,即使在简单的迷宫环境中,LLMs在长期路径规划方面仍面临挑战,这主要受到它们在长期推理中的空间幻觉和上下文不一致幻觉的影响。为了应对这一挑战,本研究提出了一个创新模型,即空间到关系转换和课程Q学习(Spatial-to-Relational Transformation and Curriculum Q-Learning,简称S2RCQL)。为了解决LLMs的空间幻觉问题,本文提出了空间到关系方法,该方法将空间提示转换为实体关系和代表实体关系链的路径。这种方法充分挖掘了LLMs在顺序思维方面的潜力。因此,作者设计了一种基于Q学习的路径规划算法,以减轻上下文不一致幻觉,从而增强LLMs的推理能力。利用状态-行为的Q值作为提示的辅助信息,作者纠正了LLMs的幻觉,从而引导LLMs学习最优路径。最后,作者提出了一种基于LLMs的反向课程学习技术,以进一步减轻上下文不一致幻觉。LLMs可以通过降低任务难度快速积累成功经验,并利用这些经验来应对更复杂的任务。研究者在百度自主研发的LLM:ERNIE-Bot 4.0的基础上进行了全面的实验。结果表明,S2RCQL在成功率和最优性率方面比先进的提示工程提高了23%-40%。

28a7c357fa0f226983f73efb2e43ad5e.png

82efd18a526e57ae8a0e3672318a627d.png

3d9511d556e23ba237b253efa6268eb3.png

2416d7535e095fa62a5613a807e9ab51.png

27994665e7d58cefba6817e536897c8e.png


文章链接:

https://arxiv.org/pdf/2408.13184

06

Explaining Datasets in Words: Statistical Models with Natural Language Parameters

为了理解海量数据,研究者经常拟合简化的模型,然后解释参数;例如,对文本嵌入进行聚类,然后解释每个聚类的均值参数。然而,这些参数通常是高维的,难以解释。为了使模型参数直接可解释,本文引入了一系列由自然语言谓词参数化的统计模型家族——包括聚类、时间序列和分类模型。例如,关于COVID的文本聚类可以由谓词“讨论COVID”参数化。为了有效地学习这些统计模型,作者开发了一个与模型无关的算法,该算法通过梯度下降优化谓词参数的连续松弛,并通过对语言模型(LMs)进行提示来离散化它们。最后,将该框架应用于广泛的问题的解决方案:对用户聊天对话进行分类、描述它们随时间的演变、寻找一个语言模型比另一个更好的类别、基于子领域对数学问题进行聚类,以及解释记忆中图像的视觉特征。本文框架非常通用,适用于文本和视觉领域,可以轻松引导以专注于特定属性(例如子领域),并解释传统方法(例如n-gram分析)难以产生复杂概念。

455218ac01c2fe22f59d0b9f7802f3e5.png

a4ccfe2d77ad40d3095f253986f93939.png

155065bf19840516c920d3b4492f531b.png

c6eebf03234f5e56eb222896a773e1c9.png

2df28ecc4f4233be593a98d2d16f22fd.png


文章链接:

https://arxiv.org/pdf/2409.08466

07

AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents

为了安全和成功地部署,大型语言模型(LLMs)必须同时满足真实性和实用性的目标。然而,这两个目标经常相互竞争(例如,一个AI代理协助二手车销售商销售有缺陷的汽车),这部分是由于用户指令模糊或误导性导致的。本文提出了AI-LIEDAR框架,用于研究基于LLM的代理如何在多轮交互设置中导航实用性与真实性冲突的场景。作者设计了一系列现实场景,其中语言代理在与模拟人类代理进行多轮对话时,被指示实现与真实性相冲突的目标。为了大规模评估真实性,作者开发了一个受心理学文献启发的真实性检测器来评估代理的响应。实验表明,所有模型在不到50%的时间里是真实的,尽管不同模型的真实性和目标实现(实用性)率各不相同。文章进一步测试了LLMs向真实性方向的可引导性,发现模型会遵循恶意指令进行欺骗,即使是真实性引导的模型也仍然可能撒谎。这些发现揭示了LLMs中真实性的复杂性,并强调了进一步研究的重要性,以确保LLMs和AI代理的安全、可靠部署。

6345bc95e1012a32f6b4fe5342ffed2a.png

649ba151147794f86c0418b6927a51ed.png

5aa96e72ae976d292d5495eb1d22d4b7.png

38745b1e30679d47b6902c4c18e0c89e.png

7fd5753179149b583bce4371a27b66fa.png


文章链接:

https://arxiv.org/abs/2409.09013

本期文章由陈研整理

往期精彩文章推荐

c8defe417628c522d26105933f85bb26.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 a41cc7eb7702fa06cd60a3d4463494a8.png

我知道你

在看

提出观点,表达想法,欢迎

留言

966bfd1abfe5425f44e3b019be47f6dc.gif

点击 阅读原文 查看更多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值