效果图
什么是 STT 和 TTS?
STT
是语音转文字(Speech To Text)TTS
是文字转语音(Text To Speech)
为什么要使用
SST
+TTS
如果用户直接输入音频,OpenAI
的API
中并没有直接使用语音和GPT
进行对话的功能。
所需依赖
express
express-fileupload
openai
websocket
nodemon
dotenv
实现语音转文字(STT)
前面说到了,OpenAI
中不存在这种 API
,但是提供了一个 Whisper
机器人,支持将音频流转化为文本,也就是 STT
。

实现如下返回的 text
就是识别的语音内容
const {
data: { text: prompt },
} = await openai.createTranscription(
fs.createReadStream(fileName),
"whisper-1"
);
实现文字转语音(TTS)
OpenAI
目前只提供了 STT
,如果需要返回给用户一个音频的话。就需要用到国内的 科大讯飞 每天有