【产品体验】豆包大模型实时语音本地化部署及功能体验

背景

2025年1月21日,豆包实时语音大模型在豆包App(7.2.0 新春版)全量开放,引发了广泛关注。这一语音交互体验,与OpenAI公布的GPT-4o模型实时语音功能体验类似,未来拥有广阔的应用前景。

因此,本章我们深入了解豆包实时语音大模型的使用过程,并分析其背后的实现原理。

目标

基于豆包开源的Github代码,在本地搭建一个实时语音大模型,并体验其效果。

搭建过程

豆包大模型的背后支持团队 火山引擎 提供了开源代码Demo,我们基于该项目进行相关部署实践。

1. 拉取代码

git clone https://github.com/volcengine/rtc-aigc-demo

2. 注册账号

访问火山引擎官网(https://www.volcengine.com/) ,注册账号并登录。

说明:
首次注册火山引擎账号并使用,需要进行实名认证,按照官网提示完成即可。

3. 准备工作

3.1 获取API Key
  1. 访问火山引擎控制台https://console.volcengine.com/home

  2. 点击右上角个人头像->API访问密钥

  3. 新建密钥

说明:

  • 火山引擎API密钥分主账号和子账号,一般为了安全情况下,使用子账号。
  • 本例中优先跑通流程,所以安全性要求不高,使用主账号减少操作步骤。
  1. 点击继续后,使用手机获取验证码,即可完成API Key创建。
3.2 开通 RTC 服务(获取AppID和AppKey)
  1. 访问火山引擎控制台的 实时音视频 https://console.volcengine.com/rtc/guide

  2. 申请开通 RTC 服务

  3. 创建应用:点击左侧应用管理->创建应用

说明:

  • 默认情况下,开通RTC服务后,会自动创建一个默认应用,本例中使用默认应用。
  • 如果需要创建新应用,则需要填写应用名称、应用描述、应用类型、应用场景、应用权限等信息。
  1. 获取应用AppID和AppKey:复制默认应用的AppID和AppKey,后续配置中需要使用。
3.3 获取临时Token
  1. 接着上一步的步骤,在页面中点击临时Token

  2. 在弹出的页面中,输入自定义的RoomIdUserId,点击生成临时Token

说明:

  • RoomId 可以自定义,本例中命名为my_demo_room
  • UserId 可以自定义,本例中命名为my_demo_user
  1. 获取临时Token后,复制Token,后续配置中需要使用。
3.4 开通 ASRTTS 服务服务
  1. 访问火山引擎控制台的 语音技术 https://console.volcengine.com/speech/app
  2. 创建应用:点击左侧应用管理->创建应用
  3. 根据提示,填写应用名称、应用简介,勾选语音合成、流式语音识别服务。

  1. 创建应用后,获取应用的APP ID
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洞明智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值