Dify 配置语音转文字

1. 配置 Speech2text 模型

打开 “设置”,

在这里插入图片描述
选择 模型供应商,单击 “添加模型”,

在这里插入图片描述

输入各个项目的信息,单击 “保存”

在这里插入图片描述

在这里插入图片描述

2. 使用 Speech2text

在调试与预览处单击 “管理”,

在这里插入图片描述
激活 “语音转文字”,

在这里插入图片描述
然后就可以以语音输入了,

在这里插入图片描述

3. 测试一下

和AI聊天,使用语音输入,

在这里插入图片描述

4. 其他问题解决

如果报错“microphone not authorized”或者“麦克风未授权”,请按照下面方法解决,

4-1. 在线测试浏览器是否可以使用麦克风

访问https://www.microphonetest.com/使用此链接在线测试。

4-2. 设置 Insecure origins treated as secure

使用浏览器打开下面链接,

chrome://flags/#unsafely-treat-insecure-origin-as-secure

参考下面截图进行设置,

在这里插入图片描述

完结!

参考文章:

### Dify 和 DeepSeek 实现文本语音功能的方法 #### 一、环境准备 为了成功部署并运行Dify和DeepSeek的文本语音(TTS)功能,需确保本地模型存储路径设置无误。具体来说,应确认`/data/model/deepseek/DeepSeek-R1-Distill-Qwen-7B`作为模型文件夹存在且可访问[^3]。 #### 二、集成与配置 在构建基于Dify的工作流程时,可以利用其强大的API接口来处理自然语言理解和生成的任务。对于想要加入TTS能力的应用场景而言,在完成基础架构搭建之后,还需要特别关注如何有效地连接到已训练好的DeepSeek TTS引擎。这通常涉及到调用特定的服务端点或库函数来进行声音合成操作[^4]。 #### 三、Python代码实例 下面给出一段简单的Python脚本用于展示如何通过RESTful API请求的方式向服务器发送待换的文字串,并接收返回的声音文件链接: ```python import requests def text_to_speech(text): url = "http://localhost:8000/api/v1/tts" headers = {"Content-Type": "application/json"} payload = { 'text': text, 'voice_id': 'default' } response = requests.post(url, json=payload, headers=headers) if response.status_code == 200: audio_url = response.json().get('audio_url') print(f"Audio URL: {audio_url}") return audio_url else: raise Exception("Failed to generate speech") if __name__ == "__main__": sample_text = "欢迎使用Dify和DeepSeek提供的高质量中文语音合成功能!" text_to_speech(sample_text) ``` 此段程序假设有一个正在监听HTTP POST请求的Web服务位于`http://localhost:8000/api/v1/tts`地址上,它能够接受JSON格式的数据包内含欲化成语音的字符串以及指定使用的发音人ID(此处设定了默认值)。当一切正常运作时,该接口会回应一个包含新创建音频资源位置的信息对象;反之则抛出异常提示错误发生。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值