阿里发布开源语音交互大模型 Qwen2-Audio

最新推荐文章于 2024-08-15 21:26:18 发布

希尔贝壳AISHELL

最新推荐文章于 2024-08-15 21:26:18 发布

阅读量219

点赞数 2

文章标签：交互

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AI_SHELL/article/details/141219780

版权

近日，阿里发布了Qwen2-Audio模型。Qwen2-Audio 是一个大型的音频语言模型系列，它能够接受音频信号输入，进行音频分析或直接文本响应，支持语音聊天和音频分析两种交互模式，并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。

论文地址：https://arxiv.org/abs/2407.10759

评估标准：https://github.com/OFA-Sys/AIR-Bench

开源代码：https://github.com/QwenLM/Qwen2-Audio

Qwen2-Audio 具备下面的几个特点：

语音聊天：用户可以使用语音向音频语言模型发出指令，无需通过自动语音识别（ASR）模块。
音频分析：该模型能够根据文本指令分析音频信息，包括语音、声音、音乐等。
多语言支持：该模型支持超过8种语言和方言，例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

模型效果

官方在一系列基准数据集上进行了实验，包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及 AIR-Benchmark，下面我们将展示一张图表来说明 Qwen2-Audio 相对于竞争对手的表现。在所有任务中，Qwen2-Audio 都显著超越了先前的最佳模型或是 Qwen-Audio。

关于数据集的更具体结果列于下表中。

结构与训练范式

下图展示了模型结构及训练方法。具体来说，通义千问团队使用 Qwen 语言模型和音频编码器这两个基础模型，接着依次进行多任务预训练以实现音频与语言的对齐，以及 SFT 和 DPO 来掌握下游任务的能力并捕捉人类的偏好。

使用

Qwen2-Audio 的代码已在最新的 Hugging face transformers 中，环境安装

pip install git+https://github.com/huggingface/transformers

语音聊天推理：

音频分析推理：

显存占用：

vllm推理

尽管有了对Huggingface的访问限制，但是魔搭modelscope.cn在某种意义上，算是解决了大部分问题。

同时也可直接试用魔搭的在线Demo：

https://modelscope.cn/studios/qwen/Qwen2-Audio-Instruct-Demo

可以直接使用Record，录下自己的音频，然后点Submit就可以了。

希尔贝壳AISHELL

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
阿里发布开源语音交互大模型 Qwen2-Audio

Qwen2-Audio 是一个大型的音频语言模型系列，它能够接受音频信号输入，进行音频分析或直接文本响应，支持语音聊天和音频分析两种交互模式，并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。具体来说，通义千问团队使用 Qwen 语言模型和音频编码器这两个基础模型，接着依次进行多任务预训练以实现音频与语言的对齐，以及 SFT 和 DPO 来掌握下游任务的能力并捕捉人类的偏好。可以直接使用Record，录下自己的音频，然后点Submit就可以了。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。