如何利用FunAudioLLM搭建语音对话系统

最新推荐文章于 2024-09-28 12:24:15 发布

张张的学习笔记

最新推荐文章于 2024-09-28 12:24:15 发布

阅读量305

点赞数 8

分类专栏：大模型部署文章标签：语音识别

本文链接：https://blog.csdn.net/Hui01080/article/details/141432300

版权

大模型部署专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.从GitHub上克隆项目

git clone --recursive https://github.com/FunAudioLLM/FunAudioLLM-APP.git

如果子模块克隆失败可以进入FunAudioLLM-APP目录运行以下命令

cd FunAudioLLM-APP
git submodule update --init --recursive

安装相关依赖项

pip install -r requirements.txt

2.配置cosyvoice环境并下载模型

cd cosyvoice
pip install -r requirements.txt

创建download,py文件，用于下载模型

# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

运行download,py，下载文件

python download,py

3.配置sensevoice环境

pip install funasr

4.解决某些库版本冲突问题

pip install --upgrade pydantic
pip install --upgrade inflect

安装ffmpeg

sudo apt update
sudo apt install ffmpeg#Ubuntu系统

5.启动

cd voice_chat
sudo CUDA_VISIBLE_DEVICES="0" DS_API_TOKEN="YOUR-DS-API-TOKEN" python app.py >> ./log.txt

启动成功
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

张张的学习笔记

关注关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

FunAudioLLM SenseVoice语音转录(ASR)与CosyVoice语音合成(TTS)及语音克隆使用案例；webui可视化页面操作使用

weixin_42357472的博客

07-09

1587

参考： https://fun-audio-llm.github.io/ 在线体验：https://modelscope.cn/studios/iic/CosyVoice-300M 参考：https://github.com/FunAudioLLM/SenseVoice下载：使用：参考：https://github.com/FunAudioLLM/CosyVoice 在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M 这里docker运行

语音版语言模型【Audio LLM】

u013250861的博客

05-21

210

In this repository, we survey three crucial areas: (1) representation learning, (2) neural codec, and (3) language models that contribute to speech/audio large language models. 1.⚡Speech Representation Models:These models focus on learning structural sp

参与评论您还未登录，请先登录后发表或查看评论

云平台部署 FunAudioLLM 语音天花板

m0_49711991的博客

08-07

458

项目入口：https://open.virtaicloud.com/web/project/detail/470526582805655552。CosyVoice在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M。SenseVoice在线体验：https://www.modelscope.cn/studios/iic/SenseVoice。，即刻将项目一键克隆到工作空间，不需要自己动手收集下载数据集、模型等。，根据项目主页介绍进行部署。

阿里开源语音理解和语音生成大模型FunAudioLLM

声纹感知洞察芯声

07-08

4227

阿里开源大模型FunAudioLLM，一个创新的框架，旨在促进人类与大型语言模型（LLMs）之间的自然语音交互。FunAudioLLM的核心是两个开创性的模型：用于语音理解的SenseVoice和用于语音生成的CosyVoice。

声临其境！体验阿里云开源音频基座大模型——FunAudioLLM

qq_44373268的博客

08-03

2242

阿里通义实验室开源了全新的音频基座大模型FunAudioLLM，包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测，支持50余种语言，中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成，只需3-10秒原始音频即可克隆音色，并支持跨语言合成。FunAudioLLM的应用场景广泛，包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示，其生成的语音自然流畅，支持定制化及高级情绪控制，超越竞

阿里 FunAudioLLM：增强人类和 AI 用自然语音交互

weixin_51674085的博客

07-08

629

都在 modelscope 上有免费试用，FunAudioLLM 能够轻松与 LLMS 集成，能实现语音翻译、情感语音聊天、交互式播客和有声读物等。略差，不过强在开源了，并且现在你就可以直接用了！整体效果比起之前字节的。

AI人工智能影像技术博客

07-09

1015

阿里巴巴近期发布了开源语音大模型项目FunAudioLLM，该项目包含了两个核心模型：SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆

空间大模型如何提升语音交互的准确率？

百态老人的博客

07-19

323

大模型能够根据用户的语音特征和偏好，生成个性化语音交互。● 阿里通义音频生成大模型FunAudioLLM：通过结合SenseVoice、LLMs和CosyVoice，能够实现无缝的语音到语音翻译，情感语音聊天应用程序，以及互动式播客电台，展示了空间大模型在多模态语音交互领域的应用潜力30。● 讯飞星火V4.0的应用：在医疗、教育、商业、办公等多个领域的人工智能应用，如讯飞星火APP及桌面版全新升级，发布“个人空间”，以及星火智能批阅机等，展示了空间大模型在实际应用中的强大能力18。

语音合成大模型汇总

q742971636的博客

07-30

175

https://www.speechhome.com/blogs/news/1810969234071752704

阿里音频生成大模型一次发俩还开源！ sense voice+cosy voice

莫斯特的博客

07-08

3137

震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！

AIGC Studio：分享AIGC前沿知识和好玩应用，公众号同名。

07-14

915

本报告介绍了 FunAudioLLM，这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创新模型：SenseVoice，用于处理多语言语音识别、情感识别和音频事件检测；CosyVoice，用于促进自然语音生成，并控制多种语言、音色、说话风格和说话者身份。

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种...

量子位

07-05

645

FunAudioLLM团队投稿量子位 | 公众号 QbitAIOpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。刚刚，阿里通义实验室也出手了——最新发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测，支持超过50种语...

阿里通义音频生成大模型 FunAudioLLM 开源

specssss的博客

07-12

1502

近年来，人工智能（AI）技术的进步极大地改变了人类与机器的互动方式，特别是在语音处理领域。阿里巴巴通义实验室最近开源了一个名为FunAudioLLM的语音大模型项目，旨在促进人类与大型语言模型（LLMs）之间的自然语音交互。FunAudioLLM包含两个核心模型：SenseVoice和CosyVoice，分别负责语音理解和语音生成。

SenseVoice多语言语音理解模型之最新部署落地经验

m0_71062934的博客

07-15

3133

SenseVoice是一个专注于多语言语音识别、情感辨识和音频事件检测的模型。 SenseVoice经过超过40万小时的数据训练，支持超过50种语言的识别，效果在某些场景下优于Whisper模型。除了基本的语音转文本功能，SenseVoice还具备情感辨识能力，能够分析说话者的情绪状态，这对于构建更加人性化的交互系统非常重要。即使在较小的模型版本SenseVoice-Small中，也能在多数数据集上超越竞争对手，这意味着它在保持高性能的同时，还兼顾了计算资源的使用效率。

本地部署 SenseVoice - 阿里开源语音大模型

engchina的专栏

07-08

2610

本地部署 SenseVoice - 阿里开源语音大模型

全球首款“开源GPT-4O”雏形横空出世，{最佳绝配}非FunAudioLLM&LLAMA3莫属！

人工智能曾小健

07-10

1094

两个开创性模型。

SenseVoice部署（Windows环境）+ 简易api二次开发：实现麦克风语音识别

qq_18813685的博客

08-21

2214

超快速的多功能ASR/STT（自动语音识别） SenseVoice-api简易开发应用教程

AI人工智能影像技术博客

07-10

1831

近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版，新增自定义音色保存，优化长文本生成以及修复上个版本错误提示的bug。

Win10系统插入带有麦克风的耳机_麦克风不起作用_解决方法_亲测成功---Windows运维工作笔记054