【产品体验】豆包大模型实时语音本地化部署及功能体验

洞明智能

已于 2025-04-10 16:37:19 修改

阅读量1.4k

点赞数 12

文章标签：人工智能实时音视频

于 2025-04-10 16:28:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Deadwalk/article/details/147121569

版权

背景

2025年1月21日，豆包实时语音大模型在豆包App（7.2.0 新春版）全量开放，引发了广泛关注。这一语音交互体验，与OpenAI公布的GPT-4o模型实时语音功能体验类似，未来拥有广阔的应用前景。

因此，本章我们深入了解豆包实时语音大模型的使用过程，并分析其背后的实现原理。

目标

基于豆包开源的Github代码，在本地搭建一个实时语音大模型，并体验其效果。

搭建过程

豆包大模型的背后支持团队火山引擎提供了开源代码Demo，我们基于该项目进行相关部署实践。

1. 拉取代码

git clone https://github.com/volcengine/rtc-aigc-demo

2. 注册账号

访问火山引擎官网(https://www.volcengine.com/) ，注册账号并登录。

说明：
首次注册火山引擎账号并使用，需要进行实名认证，按照官网提示完成即可。

3. 准备工作

3.1 获取API Key

访问火山引擎控制台https://console.volcengine.com/home
点击右上角个人头像->API访问密钥
新建密钥

说明：

火山引擎API密钥分主账号和子账号，一般为了安全情况下，使用子账号。

本例中优先跑通流程，所以安全性要求不高，使用主账号减少操作步骤。

点击继续后，使用手机获取验证码，即可完成API Key创建。

3.2 开通 `RTC` 服务(获取AppID和AppKey)

访问火山引擎控制台的 实时音视频 https://console.volcengine.com/rtc/guide
申请开通 RTC 服务
创建应用：点击左侧应用管理->创建应用

说明：

默认情况下，开通RTC服务后，会自动创建一个默认应用，本例中使用默认应用。

如果需要创建新应用，则需要填写应用名称、应用描述、应用类型、应用场景、应用权限等信息。

获取应用AppID和AppKey：复制默认应用的AppID和AppKey，后续配置中需要使用。

3.3 获取临时Token

接着上一步的步骤，在页面中点击临时Token
在弹出的页面中，输入自定义的RoomId和UserId，点击生成临时Token

说明：

RoomId 可以自定义，本例中命名为my_demo_room

UserId 可以自定义，本例中命名为my_demo_user

获取临时Token后，复制Token，后续配置中需要使用。

3.4 开通 `ASR` 与 `TTS` 服务服务

访问火山引擎控制台的 语音技术 https://console.volcengine.com/speech/app
创建应用：点击左侧应用管理->创建应用
根据提示，填写应用名称、应用简介，勾选语音合成、流式语音识别服务。

创建应用后，获取应用的APP ID

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

洞明智能 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。