Big Model Weekly | 第29期

点击蓝字

d706162e481385bcb59962f2055ad4f3.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

支持语音的基础模型,无论是基于灵活语音识别的系统还是音频提示的大型语言模型(LLM),都变得越来越流行。这些模型的一个有趣的方面是,它们能够使用适当的提示执行自动语音识别(ASR)以外的任务。例如,OpenAI Whisper模型可以执行语音转录和语音翻译。随着音频提示LLM的发展,有可能提供更大的控制选项。这项工作证明了这种更大的灵活性,系统可以容易受到模型控制对抗攻击。在没有对模型提示的任何访问的情况下,可以通过适当地改变音频输入来修改系统的行为。为了说明这种风险,本文证明,它是可能的prepend一个短的通用对抗性的声学段的任何输入语音信号覆盖的ASR基础模型的提示设置。具体来说,本文成功地使用了一个通用的对抗性声学段来控制Whisper始终执行语音翻译,尽管它被设置为执行语音转录。总的来说,这项工作展示了一种新形式的对抗性攻击,对支持多任务语音的基础模型进行攻击,需要在部署这种形式的模型之前加以考虑。

03c304fb21a73dd3c8dac67c7338fda3.png

64f8f8510262f6b0301d9833dff41a60.png

0b1f6c7baa17c63950bc8f6b7f049bdc.png

3569052561b4fd94a93233d7896a4422.png

dcf499fa5729b90011242b5f1e2f3564.png

文章链接:

https://arxiv.org/pdf/2407.04482

02

TokenVerse: Unifying Speech and NLP Tasks via Transducer-based ASR

在传统的语音会话智能中,使用级联管道,涉及语音活动检测,日记,转录等任务,以及针对语义端点和命名实体识别(NER)等任务的不同NLP模型的后续处理。该论文介绍了TokenVerse,这是一个基于单个传感器的模型,旨在处理多个任务。这是通过在ASR模型训练期间将特定于任务的标记集成到参考文本中来实现的,简化了推理并消除了对单独的NLP模型的需求。除了ASR,作者进行实验3个不同的任务:说话人变化检测,端点,和NER。在公共和私有数据集上的实验表明,该方法在相对WER上将ASR提高了7.7%,同时在单个任务性能上优于级联管道方法。此外,文中提出了任务迁移学习到现有TokenVerse中的新任务。

759cc7705a78672fe2d8f0dcb7beb2b0.png

96c0ad1bbe36b9b26d345554a20e4166.png

84e06a043b086b6fadf9b721980d82cf.png

87874f5f4ca2f3532d02bf7956470176.png

e6af83c90199688133ec1e9425db13c4.png

f754c8e1264d3a8ec2ed2f1843c9122b.png


文章链接:

https://arxiv.org/pdf/2407.04444

03

Improving Audio Generation with Visual Enhanced Caption

生成模型已经在音频生成任务中显示出显著的成就。然而,现有的模型难以处理复杂而详细的提示,导致潜在的性能下降。作者假设这个问题源于低质量和相对少量的训练数据。在这项工作中,目标是创建一个具有丰富字幕的大规模音频数据集,以改进音频生成模型。本文开发了一个自动化的pipline,通过使用大型语言模型(LLM)将预测的视觉字幕,音频字幕和标记标签转换为全面的描述,为视听数据集生成详细的字幕。作者引入Sound-VECaps,这是一个包含1.66 M高质量音频字幕对的数据集,其中包含丰富的细节,包括音频事件顺序,发生地点和环境信息。文章证明,使用Sound-VECaps进行训练可以显着增强文本到音频生成模型的能力,以便从复杂的输入提示中理解和生成音频,从而提高整体系统性能。此外,在几个音频语言任务中进行声音VECaps的消融研究,表明其在推进音频文本表征学习中的潜力。

cacad174b45ffe591337126e5cea4922.png

2ae0e05b7f0f22ab9d5eb20875359b1d.png

c0b9e50b7e59cb6c995baf1266b4511f.png

764d9a60a0a51a1eec3f5a0b4d0e8da4.png

66bd54430d2bcabc59ece4b10ca1c0b7.png

文章链接:

https://arxiv.org/pdf/2407.04416

04

MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss

自动生成符号音乐--根据人类特定需求定制的乐谱--对音乐家和爱好者来说是非常有益的。最近的研究表明,使用广泛的数据集和先进的Transformer架构,结果很有希望。然而,这些最先进的模型通常只提供对整个作品的节奏和风格等方面的基本控制,缺乏管理更精细细节的能力,例如在单个小节级别的控制。虽然微调预训练的符号音乐生成模型似乎是实现这种更精细控制的简单方法,但研究表明这种方法存在挑战。该模型往往不能充分响应新的,细粒度的酒吧级控制信号。为此,本文提出了两个创新的解决方案。首先,引入了一个预训练任务,旨在将控制信号直接与相应的音乐令牌联系起来,这有助于实现更有效的初始化,以便随后进行微调。其次,实现了一种新的反事实损失,促进生成的音乐和控制提示之间更好的对齐。总之,这些技术显着提高了能力,控制音乐生成的水平,显示了13.06%的改进,比传统的方法。这也证实了这种增强的控制不会损害原始预训练生成模型的音乐质量。

4f03bdc385226d6998a90e898a999bc6.png

d819d6055bf84c3679aaee724a4f63b8.png

2f51890061be51477361b4948aef6963.png

bb38a528c4f0d9e1a715e70a37da334a.png

文章链接:

https://arxiv.org/pdf/2407.04331

05

BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks

在会话中的情感识别任务中,最近的研究利用注意机制探索来自内部和内部说话者的话语之间的关系,以建模它们之间的情感交互。然而,属性,如扬声器的个性特征仍然未被探索,并提出了挑战,他们的适用性,以其他任务或兼容性与不同的模型架构。因此,这项工作引入了一个新的框架名为BiosERC,它调查说话人的特点在对话中。通过采用大型语言模型(LLM),将提取的“传记信息”的谈话中的扬声器作为补充知识注入到模型中,为每个话语的情感标签进行分类。文章提出的方法在三个著名的基准数据集上取得了最先进的(SOTA)结果:IEMOCAP,MELD和EmoryNLP,证明了模型的有效性和通用性,并展示了其适应各种会话分析任务的潜力。

4c8f67f73cae1cb3e6d5833ef3acf862.png

aebe47c9f58afa2c023cebdb353e6db5.png

c191d512010ae04e9a71dd2bfd55e901.png

b38774a5b3f471b2151b930ab4ceec21.png

54fe0de1133402717f49f3252b4b047d.png

文章链接:

https://arxiv.org/pdf/2407.04279

06

Scaling Laws for Linear Complexity Language Models

这篇论文研究了线性复杂度语言模型的扩展定律,探讨了线性模型的扩展能力。实验研究了三种有效的线性架构的扩展行为,并与基于softmax注意力的LLaMA基线架构进行了比较。在多个下游任务上的实验结果表明,现有线性复杂度语言模型在保持优越的语言能力和知识保留的同时,具有与基于传统transformer的模型相似的扩展能力。

670db1b17e961cab43e6a4d3540bc067.png

5f0a5d16b59603e1ab5f7e95e84813d2.png

a0f2909a83943c13516a5622ecbab7ee.png

ed917686d147c9c621cb376c56830348.png

文章链接:

https://arxiv.org/pdf/2406.16690

07

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

本文介绍了一种称为RankRAG的创新指令微调框架,旨在使单一的大语言模型在检索增强生成的过程中,同时具备上下文排序和答案生成的能力。特别地,只需在训练过程中添加少量的排序数据,该模型便能展现出良好的性能,并超越现有专家排序模型。对生成部分的评估与多项强大的基准模型进行比较,表明了该模型在九个知识密集型基准测试中显著优于现有的Llama3-ChatQA-1.5 和 GPT-4 模型。此外,在无需在生物医学数据上进行指令微调的情况下,它在生物医学领域的五项检索增强生成测试中与GPT-4表现得相当,展示了其在新领域中的卓越泛化能力。

53fe7d85017831ae4a08406c8fa57c7c.png

55c656fc725698ed176e01e64ae5d483.png

7ecfc6783d21de47206acd090b235900.png

de11510b918478cdba50495088518e71.png

文章链接:

https://arxiv.org/pdf/2407.02485

本期文章由陈研整理

往期精彩文章推荐

e6ebb06e6b77dd8b927e684e1b75260e.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

3889977f119b738f7bb0eb9b6c4c3716.png

我知道你

在看

欢迎讨论,期待你的

留言

fcfea2d1eb3e00a3531b4fca860cb6bd.gif

点击 阅读原文 查看更多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值