超越openai的whisper,最新语音理解大模型Qwen2-Audio模型部署

Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。

Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。

Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。

Qwen2-Audio的特点是能够接受音频和文本输入,并生成文本输出,无需通过自动语音识别模块即可进行语音聊天,同时能够根据文本指令分析音频信息,包括语音、声音、音乐等。

在性能测试方面,Qwen2-Audio在多个主流基准测试中表现优异,尤其是在语音识别和翻译的准确性上,超越了OpenAI的Whisper-large-v3。

其中github项目地址为:https://github.com/QwenLM/Qwen2-Audio。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install torch==2.3.0+cu118 torchvision==0.18.0+cu118 torchaudio==2.3.0 --extra-index-url https://download.pytorch.org/whl/cu118

pip install git+https://github.com/huggingface/transformers

pip install -r requirements_web_demo.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值