Big Model Weekly | 第29期

AITIME论道

于 2024-07-13 13:58:42 发布

阅读量873

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247525873&idx=1&sn=38f7450aa250370a0c3d703d4c64acca&chksm=e8d803908e214992e58bcef94e25364fbd2e6589945d9b9e42d97369970b6d0d98af46a8c2da&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

支持语音的基础模型，无论是基于灵活语音识别的系统还是音频提示的大型语言模型（LLM），都变得越来越流行。这些模型的一个有趣的方面是，它们能够使用适当的提示执行自动语音识别（ASR）以外的任务。例如，OpenAI Whisper模型可以执行语音转录和语音翻译。随着音频提示LLM的发展，有可能提供更大的控制选项。这项工作证明了这种更大的灵活性，系统可以容易受到模型控制对抗攻击。在没有对模型提示的任何访问的情况下，可以通过适当地改变音频输入来修改系统的行为。为了说明这种风险，本文证明，它是可能的prepend一个短的通用对抗性的声学段的任何输入语音信号覆盖的ASR基础模型的提示设置。具体来说，本文成功地使用了一个通用的对抗性声学段来控制Whisper始终执行语音翻译，尽管它被设置为执行语音转录。总的来说，这项工作展示了一种新形式的对抗性攻击，对支持多任务语音的基础模型进行攻击，需要在部署这种形式的模型之前加以考虑。

文章链接：

https://arxiv.org/pdf/2407.04482

TokenVerse: Unifying Speech and NLP Tasks via Transducer-based ASR

在传统的语音会话智能中，使用级联管道，涉及语音活动检测，日记，转录等任务，以及针对语义端点和命名实体识别（NER）等任务的不同NLP模型的后续处理。该论文介绍了TokenVerse，这是一个基于单个传感器的模型，旨在处理多个任务。这是通过在ASR模型训练期间将特定于任务的标记集成到参考文本中来实现的，简化了推理并消除了对单独的NLP模型的需求。除了ASR，作者进行实验3个不同的任务：说话人变化检测，端点，和NER。在公共和私有数据集上的实验表明，该方法在相对WER上将ASR提高了7.7%，同时在单个任务性能上优于级联管道方法。此外，文中提出了任务迁移学习到现有TokenVerse中的新任务。

文章链接：

https://arxiv.org/pdf/2407.04444

Improving Audio Generation with Visual Enhanced Caption

生成模型已经在音频生成任务中显示出显著的成就。然而，现有的模型难以处理复杂而详细的提示，导致潜在的性能下降。作者假设这个问题源于低质量和相对少量的训练数据。在这项工作中，目标是创建一个具有丰富字幕的大规模音频数据集，以改进音频生成模型。本文开发了一个自动化的pipline，通过使用大型语言模型（LLM）将预测的视觉字幕，音频字幕和标记标签转换为全面的描述，为视听数据集生成详细的字幕。作者引入Sound-VECaps，这是一个包含1.66 M高质量音频字幕对的数据集，其中包含丰富的细节，包括音频事件顺序，发生地点和环境信息。文章证明，使用Sound-VECaps进行训练可以显着增强文本到音频生成模型的能力，以便从复杂的输入提示中理解和生成音频，从而提高整体系统性能。此外，在几个音频语言任务中进行声音VECaps的消融研究，表明其在推进音频文本表征学习中的潜力。

文章链接：

https://arxiv.org/pdf/2407.04416

MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss

自动生成符号音乐--根据人类特定需求定制的乐谱--对音乐家和爱好者来说是非常有益的。最近的研究表明，使用广泛的数据集和先进的Transformer架构，结果很有希望。然而，这些最先进的模型通常只提供对整个作品的节奏和风格等方面的基本控制，缺乏管理更精细细节的能力，例如在单个小节级别的控制。虽然微调预训练的符号音乐生成模型似乎是实现这种更精细控制的简单方法，但研究表明这种方法存在挑战。该模型往往不能充分响应新的，细粒度的酒吧级控制信号。为此，本文提出了两个创新的解决方案。首先，引入了一个预训练任务，旨在将控制信号直接与相应的音乐令牌联系起来，这有助于实现更有效的初始化，以便随后进行微调。其次，实现了一种新的反事实损失，促进生成的音乐和控制提示之间更好的对齐。总之，这些技术显着提高了能力，控制音乐生成的水平，显示了13.06%的改进，比传统的方法。这也证实了这种增强的控制不会损害原始预训练生成模型的音乐质量。

文章链接：

https://arxiv.org/pdf/2407.04331

BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks

在会话中的情感识别任务中，最近的研究利用注意机制探索来自内部和内部说话者的话语之间的关系，以建模它们之间的情感交互。然而，属性，如扬声器的个性特征仍然未被探索，并提出了挑战，他们的适用性，以其他任务或兼容性与不同的模型架构。因此，这项工作引入了一个新的框架名为BiosERC，它调查说话人的特点在对话中。通过采用大型语言模型（LLM），将提取的“传记信息”的谈话中的扬声器作为补充知识注入到模型中，为每个话语的情感标签进行分类。文章提出的方法在三个著名的基准数据集上取得了最先进的（SOTA）结果：IEMOCAP，MELD和EmoryNLP，证明了模型的有效性和通用性，并展示了其适应各种会话分析任务的潜力。

文章链接：

https://arxiv.org/pdf/2407.04279

Scaling Laws for Linear Complexity Language Models

这篇论文研究了线性复杂度语言模型的扩展定律，探讨了线性模型的扩展能力。实验研究了三种有效的线性架构的扩展行为，并与基于softmax注意力的LLaMA基线架构进行了比较。在多个下游任务上的实验结果表明，现有线性复杂度语言模型在保持优越的语言能力和知识保留的同时，具有与基于传统transformer的模型相似的扩展能力。

文章链接：

https://arxiv.org/pdf/2406.16690

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

本文介绍了一种称为RankRAG的创新指令微调框架，旨在使单一的大语言模型在检索增强生成的过程中，同时具备上下文排序和答案生成的能力。特别地，只需在训练过程中添加少量的排序数据，该模型便能展现出良好的性能，并超越现有专家排序模型。对生成部分的评估与多项强大的基准模型进行比较，表明了该模型在九个知识密集型基准测试中显著优于现有的Llama3-ChatQA-1.5 和 GPT-4 模型。此外，在无需在生物医学数据上进行指令微调的情况下，它在生物医学领域的五项检索增强生成测试中与GPT-4表现得相当，展示了其在新领域中的卓越泛化能力。