超越openai的whisper，最新语音理解大模型Qwen2-Audio模型部署

最新推荐文章于 2025-04-02 09:31:54 发布

置顶

杰说新技术

最新推荐文章于 2025-04-02 09:31:54 发布

阅读量2k

点赞数 20

分类专栏： AIGC 英语模型文章标签： AIGC 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71062934/article/details/141269680

版权

Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。

Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。

Qwen2-Audio支持直接语音输入和多语言文本输出，具备语音聊天和音频分析两大功能，并支持超过8种语言，包括中文、英语、粤语、法语等。

Qwen2-Audio的特点是能够接受音频和文本输入，并生成文本输出，无需通过自动语音识别模块即可进行语音聊天，同时能够根据文本指令分析音频信息，包括语音、声音、音乐等。

在性能测试方面，Qwen2-Audio在多个主流基准测试中表现优异，尤其是在语音识别和翻译的准确性上，超越了OpenAI的Whisper-large-v3。

其中github项目地址为：https://github.com/QwenLM/Qwen2-Audio。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install torch==2.3.0+cu118 torchvision==0.18.0+cu118 torchaudio==2.3.0 --extra-index-url https://download.pytorch.org/whl/cu118

pip install git+https://github.com/huggingface/transformers

pip install -r requirements_web_demo.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3、

最低0.47元/天解锁文章

杰说新技术

博客等级

码龄3年

53
原创

771
点赞

500
收藏

619
粉丝

关注

私信

热门文章

分类专栏

多模态 15篇
AIGC 46篇
文生图 8篇
文生视频 6篇
英语模型 5篇
3D生成 1篇
ocr 1篇
数字人 4篇
虚拟换衣 1篇
定制化形象 1篇

展开全部收起

最新评论

MuseTalk的最新唇形同步模型落地实践经验总结（不看后悔）
Yesday ? 、温华良故: 这个怎么实时的啊？我执行这个脚本也没看到有实时啊‘’
最新口型同步技术EchoMimic部署
edccc__: pip一直下载报错怎么办
超详细的CogVLM2模型最新微调落地经验
qq_42914012: 博主，只有这些步骤吗？ apt install mpich mpich-doc mpich-committers-dev这一步我显示定位不到软件包还有peft_lora.py中的参数不用改吗？
多语言声音克隆，CosyVoice模型最强部署
baobaobao6: 这些老的库都被删了，安装新的库也不能运行啊
SenseVoice多语言语音理解模型之最新部署落地经验
栀尘ぅ: 这玩意是什么东西，看了半天不知道这玩意怎么用[code=plain] from model import SenseVoiceSmall import time import argparse class VoiceRecognitionModel: def __init__(self, model_dir="SenseVoiceSmall", device="cpu"): self.model_dir = model_dir self.device = device self.model, self.kwargs = SenseVoiceSmall.from_pretrained(model=self.model_dir, device=self.device) def infer(self, input_file, language="auto", use_itn=False): start_time = time.time() result = self.model.inference( data_in=input_file, language=language, use_itn=use_itn, **self.kwargs, ) elapsed_time_ms = (time.time() - start_time) * 1000 print(f"tts time: {elapsed_time_ms:.2f} ms") return result if name == "__main__": parser = argparse.ArgumentParser() parser.add_argument('--voice', type=str, default='voice/test1.wav', help='Path to the voice') args = parser.parse_args() model_dir="SenseVoiceSmall" device="cpu" recognizer = VoiceRecognitionModel(model_dir, device) result = recogni [/code]

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。