ChatAudio 通过TTS + STT + GPT 实现语音对话（低仿微信聊天）

最新推荐文章于 2024-10-08 14:51:16 发布

悲伤日记

最新推荐文章于 2024-10-08 14:51:16 发布

阅读量5.6k

点赞数 3

文章标签： gpt 微信

本文链接：https://blog.csdn.net/crazymryan/article/details/130164682

版权

本文介绍了如何通过STT（语音转文字）、TTS（文字转语音）和GPT实现类似微信聊天的语音对话功能。利用OpenAI的GPT进行核心对话，科大讯飞的API处理音频转换，并提供了前端实现的详细步骤，包括Vue和Element UI的使用。

摘要由CSDN通过智能技术生成

效果图

什么是 STT 和 TTS？

STT 是语音转文字（Speech To Text）
TTS 是文字转语音（Text To Speech）

为什么要使用 SST + TTS 如果用户直接输入音频，OpenAI 的 API 中并没有直接使用语音和 GPT 进行对话的功能。

所需依赖

express
express-fileupload
openai
websocket
nodemon
dotenv

实现语音转文字（STT）

前面说到了，OpenAI 中不存在这种 API，但是提供了一个 Whisper 机器人，支持将音频流转化为文本，也就是 STT。

实现如下返回的 text 就是识别的语音内容

const {
   data: { text: prompt },
} = await openai.createTranscription(
  fs.createReadStream(fileName),
  "whisper-1"
);

实现文字转语音（TTS）

OpenAI 目前只提供了 STT，如果需要返回给用户一个音频的话。就需要用到国内的科大讯飞每天有

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

悲伤日记

关注关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

文本转语音（TTS）与语音到语音翻译（STST)

08-12

138

对于语音到文本的任务，每个输入语音只对应一个正确的输出文本，但是对于文本到语音的任务，输入文本可以映射到多个可能的语音。这也是一种数据和计算效率很高的开发STST系统的方式，因为现有的语音识别和文本到语音系统可以耦合在一起，产生新的STST模型，无需进行任何额外的训练。我们也可以使用三阶段方法，首先使用自动语音识别（ASR）系统将源语音转录成同一语言的文本，然后使用机器翻译将转录的文本翻译成目标语言，最后使用文本到语音生成目标语言的语音。在ASR模型中，解码器的初始输出序列是一个仅包含“起始”标记的序列。

tts 语音合成&语音转文字

09-26

科大讯飞的API demo 实现文字转语音语音转文字，语义分析，但是需要网络，因为语音库还是科大讯飞上

参与评论您还未登录，请先登录后发表或查看评论

【AI大模型】ChatTTS文本转语音

最新发布

余生的博客

10-08

1640

ChatTTS中文文本转音频文件特别注意：经验证，ChatTTS官网的样例代码API已经过时，无法直接运行，特别是chat.load_models方法入参是错误的，下面是阅读API入参且验证的可执行代码。# 第一步下载的ChatTTS模型文件目录，请按照实际情况替换# 初始化并加载模型，特别注意加载模型参数，官网样例代码已经过时，请使用老牛同学验证代码。

ChatTTS:开源最强文本转真人语音工具

记录开发和安全学习过程中的点点滴滴

06-02

1万+

也快到期末了,最近就基本不做别的事情,主要对期末进行复习和做自己喜欢的一些事情,下面是对自己发现的一个好玩的项目进行分享,如果不想太麻烦的话,直接看3.3有直接可以运行的版本进行使用.ChatTTS（Chat Text-to-Speech）是一种技术，它允许计算机程序将文本转换成口语，即语音输出。这种技术广泛应用于各种场景，比如语音助手、电子书阅读器、自动电话系统、辅助技术等。用户输入文本，ChatTTS系统会将这些文本转换成语音，然后通过扬声器播放出来，或者通过音频文件保存。

6k Star！ChatTTS：开源领域最强的文本到语音转换（TTS）模型！

lythinking的博客

05-30

1万+

chat T T S 是一款强大的对话式文本转语音模型。它有中英混读和多说话人的能力。chat T T S 不仅能够生成自然流畅的语音，还能控制[laugh]笑声啊[laugh]，停顿啊[uv_break]语气词啊等副语言现象[uv_break]。这个韵律超越了许多开源模型[uv_break]。请注意，chat T T S 的使用应遵守法律和伦理准则，避免滥用的安全风险。可以去谷歌colab上可快速运行这些。

突破开源天花板！最强文本转语音工具ChatTTS：对话式高可控的语音合成模型

AIGC Studio：分享AIGC前沿知识和好玩应用，公众号同名。

06-04

2943

TTS全称：Text To Speech（也就是文本转语音模型）而ChatTTS是专为对话场景设计的语音生成模型，特别适用于大型语言模型(LLM)助手的对话任务，以及诸如对话式音频和视频介绍等应用。它支持中文和英文，通过使用大约100,000小时的中文和英文数据进行训练，ChatTTS在语音合成中表现出高质量和自然度。

官网上线，一款令人惊艳的文本转语音模型：ChatTTS

weixin_45131755的博客

06-02

2745

近日，一个名为 ChatTTS 文本转语音模型的项目在github上横空出世，一经推出便引发极大关注，短短四天时间，已经狂揽了14.2k的Start量。

2021AUT人工智能大作业：STT+rasa+TTS+pyqt；一个简陋的作业.zip

03-09

标题 "2021AUT人工智能大作业：STT+rasa+TTS+pyqt；一个简陋的作业.zip" 提供的关键知识点包括人工智能（AI）、语音识别（STT）、对话管理（rasa）、文本转语音（TTS）以及Python GUI开发库PyQt。这个项目可能是一个...

TTS and STT

01-13

使用C++在服务器上依赖Libcurl实现了TTS_STT功能.

对话：STT-NLP-TTS堆栈

02-14

在Python中玩STT-NLP-TTS堆栈 STT 使用Vanilla Vosk离线版，这是一种自动语音识别API，它使用Kaldi工具包作为后端并用于模型开发，是用C ++构建的。链接：： Google，IBM和其他大型企业中有许多在线API。其他...

微软上TTS和STT

01-11

总之，微软的TTS和STT技术为开发者提供了一种强大而灵活的方式，通过C++实现实时或离线的语音交互。结合Azure Cognitive Services，你可以构建各种创新应用，如语音助手、语音搜索、无障碍技术等。通过深入理解和...

ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）

2401_84204207的博客

06-11

5724

（Chat Text To Speech）是专为对话场景设计的文本生成语音(TTS)模型，特别适用于大型语言模型()助手的对话任务，以及诸如对话式音频和视频介绍等应用。同时，模型文件总大小左右，常用的个人笔记本电脑均可部署，因此涉及到文本转语音场景，均可以自己操作转换了！

ChatTTS语音生成模型：突破开源语音天花板的新星

寻道码路，探索编程之路的无限可能。

06-19

5028

在人工智能技术的不断演进中，文本到语音（TTS）技术已经成为连接人类语言与机器表达的重要桥梁。近期，一个名为ChatTTS的项目以其卓越的性能和创新性迅速走红，成为技术圈的热议话题。本文将深入探讨ChatTTS的技术特性、应用潜力以及未来发展前景。

手把手教程 | 云端部署语音合成神器——ChatTTS

m0_49711991的博客

06-20

1094

近期，ChatTTS 凭借其高度仿真的 AI 语音合成技术迅速走红！ChatTTS 是专为对话场景设计的文本转语音模型，例如 LLM 助手对话任务，支持中英文两种语言。其最大的模型在超过 10 万小时的中英文数据上进行训练，确保了高质量的语音输出。从宣传视频中可以发现，合成语音自动添加了“嗯……”“然后”等语气词，以及适时的笑声，展现了丰富的韵律和情感，几乎无法分辨真假。本文将手把手指导大家如何在趋动云平台部署这款开源的语音合成神器——ChatTTS，并进行实际测试，体验其强大的功能。

【AI大模型】ChatTTS——颠覆传统，赋能未来的文本到语音技术

热门推荐

结合项目案例，记录点点滴滴，自己回顾，分享他人o__o

07-08

2万+

随着人工智能技术的不断进步，语音合成（TTS）技术得到了飞速发展。ChatTTS项目作为一个开源的声音合成平台，通过使用深度学习技术，实现了高质量的文本到语音转换。ChatTTS基于最先进的自然语言处理模型，旨在为开发者和研究人员提供一个高效、易用的TTS解决方案。ChatTTS项目由一群热衷于人工智能和语音技术的开发者共同创建，其代码库托管在GitCode上。项目的主要目标是实现一个可以生成自然、流畅语音的TTS系统，能够广泛应用于语音助手、语音导航、读屏软件等领域。

一文梳理ChatTTS的进阶用法，手把手带你实现个性化配音，音色、语速、停顿，口语，全搞定

u010522887的专栏

06-18

1万+

ChatTTS 是一个文本转语音的开源项目，后台有小伙伴反应实测中发现了一些常见的问题，今天，单独开一篇关于ChatTTS的进阶教程，手把手带你实现**如何固定音色、设置语速、添加停顿词、口头语、笑声等，以及超长文本生成背后的原理**。

ChatTTS：对话式文本转语音模型，开源啦！突破开源语音天花板...

u012744245的博客

06-04

1112

最近，一个名为 ChatTTS 文本转语音项目爆火出圈，短短三天时间，在 GitHub 上已经斩获了 9.2 k 的 Star 量。ChatTTS：对话式文本转语音模型项目地址：https://github.com/2noise/ChatTTS/tree/main体验地址：https://huggingface.co/2Noise/ChatTTSChatTTS 是专门为对话场景设计的文本到语音 TTS 模型。它支持中文和英语，包括中英混合模式。

热门开源项目ChatTTS: 国内语音技术突破，实现弯道超车

Srlua的博客

06-16

2895

随着开源程序的发展，越来越多的程序员开始关注并加入开源大模型的行列。每个人对开源行业和项目的关注点各不相同，现在快来加入我们的开源热门项目推荐活动，分享你感兴趣的热门项目吧！5. 中英文混合：ChatTTS能够灵活处理中英文混合的情况，表现出半中半英的流利口音，展现出高水平的语言能力。4. 高度逼真的模仿：无论是语调还是语气的变化，ChatTTS都能准确地模仿，并且几乎听不出来是由AI生成的。3. 逝去声音的复刻：ChatTTS能够复刻已经逝去的人的声音，例如乔布斯的发布会，让你随时可以重新聆听。

写一个python程序pencv+yolo 目标检测+stt 缝合怪配 gpt

05-02

以下是一个使用Python编写的程序，将OpenCV、YOLO、STT和GPT组合在一起，实现图像目标检测、语音转文字和自然语言生成的功能。 ```python import cv2 import time import speech_recognition as sr import openai import numpy as np # 加载YOLO模型 net = cv2.dnn.readNet("yolov3.weights", "yolov3.cfg") # 加载类名 with open("coco.names", "r") as f: classes = [line.strip() for line in f.readlines()] # 配置OpenAI openai.api_key = "YOUR_API_KEY" # 初始化语音识别器 r = sr.Recognizer() # 初始化摄像头 cap = cv2.VideoCapture(0) while True: # 读取图像帧 ret, frame = cap.read() if not ret: break # 将图像帧转换为Blob格式 blob = cv2.dnn.blobFromImage(frame, 1/255, (416, 416), swapRB=True) # 输入图像到YOLO模型中，得到检测结果 net.setInput(blob) output_layers = net.getUnconnectedOutLayersNames() layer_outputs = net.forward(output_layers) # 解析检测结果 boxes = [] confidences = [] class_ids = [] for output in layer_outputs: for detection in output: scores = detection[5:] class_id = np.argmax(scores) confidence = scores[class_id] if confidence > 0.5: center_x = int(detection[0] * frame.shape[1]) center_y = int(detection[1] * frame.shape[0]) w = int(detection[2] * frame.shape[1]) h = int(detection[3] * frame.shape[0]) x = center_x - w // 2 y = center_y - h // 2 boxes.append([x, y, w, h]) confidences.append(float(confidence)) class_ids.append(class_id) # 应用非极大值抑制（NMS）来去除重叠的边界框 indices = cv2.dnn.NMSBoxes(boxes, confidences, 0.5, 0.4) # 显示检测结果 for i in indices: i = i[0] box = boxes[i] x, y, w, h = box label = f"{classes[class_ids[i]]}: {confidences[i]:.2f}" cv2.rectangle(frame, (x, y), (x + w, y + h), (0, 255, 0), 2) cv2.putText(frame, label, (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2) # 显示图像帧 cv2.imshow("frame", frame) # 检测是否有语音输入 with sr.Microphone() as source: audio = r.listen(source, timeout=1, phrase_time_limit=5) try: # 语音转文字 text = r.recognize_google(audio, language="zh-CN") print("You said:", text) # 使用OpenAI生成回复 prompt = f"我看到了一个{classes[class_ids[0]]}，它是{confidences[0]:.2f}的置信度。你说：{text}" response = openai.Completion.create(engine="davinci", prompt=prompt, max_tokens=50) reply = response.choices[0].text.strip() print("AI said:", reply) except sr.UnknownValueError: pass # 按下q键退出程序 if cv2.waitKey(1) == ord("q"): break # 释放摄像头和窗口 cap.release() cv2.destroyAllWindows() ``` 这个程序使用了OpenCV的dnn模块加载YOLO模型进行目标检测，使用SpeechRecognition库进行语音转文字，使用OpenAI API进行自然语言生成。程序通过摄像头读取图像帧，在图像帧中进行目标检测，并通过语音输入获取用户的输入。然后程序使用OpenAI API生成回复，并将回复输出到控制台。程序将不断循环执行这些步骤，直到用户按下q键退出程序。请注意，这个程序仅仅是一个示例，您需要自己修改和优化程序，以适应您的应用场景。