WavLLM: Towards Robust and Adaptive Speech Large Language Model

UnknownBody

于 2024-07-18 17:16:11 发布

阅读量5

点赞数

分类专栏： LLM Daily 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/140528213

版权

LLM Daily 专栏收录该内容

165 篇文章 2 订阅 ¥99.90 ¥99.00

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《WavLLM: Towards Robust and Adaptive Speech Large Language Model》的翻译。

WavLLM：迈向稳健和自适应的语音大语言模型

摘要
1 引言
2 相关工作
3 方法
4 实验
5 结论和未来工作

摘要

大型语言模型（LLM）的最新进展彻底改变了自然语言处理（NLP）领域，逐渐将其范围扩大到多模态感知和生成。然而，将听力能力有效地整合到LLM中带来了重大挑战，特别是在跨不同背景进行概括和执行复杂的听觉任务方面。在这项工作中，我们介绍了WavLLM，这是一种具有双编码器的鲁棒自适应语音大语言模型，以及一个提示感知的LoRA权重适配器，通过两阶段课程学习方法进行了优化。利用双编码器，我们解耦了不同类型的语音信息，利用Whisper编码器处理语音的语义内容，并利用WavLM编码器捕获说话者身份的独特特征。在课程学习框架内，WavLLM首先通过优化混合的基本单任务来构建其基础能力，包括自动语音识别（ASR）、语音翻译（ST）、说话者验证（SV）、情感识别（ER）、指令调整（IT）和语音问答（SQA），然后对更复杂的任务（如基本任务的组合）进行高级多任务训练。为了提高灵活性和对不同任务和指令的遵守，在第二个高级多任务训练阶段引入了具有提示意识的LoRA体重适配器。我们在包括ASR、ST、SV、ER等任务的通用语音基准上验证了所提出的模型，并将其应用于专门的数据集，如用于SQA的高考英语听力理解集和语音思维链（CoT）评估集。实验表明，所提出的模型在相同模型大小的一系列语音任务中实现了最先进的性能，在使用CoT方法执行复杂任务时表现出了强大的泛化能力。此外࿰

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
WavLLM: Towards Robust and Adaptive Speech Large Language Model

大型语言模型（LLM）的最新进展彻底改变了自然语言处理（NLP）领域，逐渐将其范围扩大到多模态感知和生成。然而，将听力能力有效地整合到LLM中带来了重大挑战，特别是在跨不同背景进行概括和执行复杂的听觉任务方面。在这项工作中，我们介绍了WavLLM，这是一种具有双编码器的鲁棒自适应语音大语言模型，以及一个提示感知的LoRA权重适配器，通过两阶段课程学习方法进行了优化。利用双编码器，我们解耦了不同类型的语音信息，利用Whisper编码器处理语音的语义内容，并利用WavLM编码器捕获说话者身份的独特特征。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。