THUDM/GLM-4-Voice 使用教程

THUDM/GLM-4-Voice 使用教程

GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型 GLM-4-Voice 项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice

1. 项目介绍

GLM-4-Voice 是由智谱 AI 推出的一款端到端的语音对话模型。该模型能够理解和生成中英文语音,实现实时语音对话,并且可以根据用户指令调整语音的情感、语调、语速和方言等属性。GLM-4-Voice 由三个主要部分组成:GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder 和 GLM-4-Voice-9B。这些组件共同工作,提供高质量的语音对话体验。

2. 项目快速启动

首先,克隆项目仓库并安装依赖:

git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice.git
cd GLM-4-Voice
pip install -r requirements.txt

启动模型服务:

python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype bfloat16 --device cuda:0

如果需要使用 Int4 精度启动,请运行:

python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype int4 --device cuda:0

启动 web 服务:

python web_demo.py --tokenizer-path THUDM/glm-4-voice-tokenizer --model-path THUDM/glm-4-voice-9b --flow-path ./glm-4-voice-decoder

启动后,可以在浏览器中访问 http://127.0.0.1:8888 来使用 web demo。

3. 应用案例和最佳实践

以下是 GLM-4-Voice 的一些应用案例和最佳实践:

  • 控制情绪:例如,用轻柔的声音引导用户放松。
  • 改变语速:根据需要调整语速,如加快语速以模拟激动情绪。
  • 生成方言:为用户提供方言语音,如东北话、重庆话等。
  • 实时对话:模型支持实时语音对话,可以即时生成回复。

4. 典型生态项目

GLM-4-Voice 的生态项目包括但不限于:

  • CosyVoice:GLM-4-Voice 使用的 Flow Matching 模型结构。
  • Transformers:用于初始化和加载模型权重。
  • GLM-4:GLM-4-Voice-9B 模型的基础。

以上是 GLM-4-Voice 的使用教程,希望对您有所帮助。

GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型 GLM-4-Voice 项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孙纯茉Norma

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值