智能语音问答机器人本地部署win10--2024最新版（faster-whisper + Qwen1.5 + ChatTTS）

i鹰斯坦爱吃红烧you

已于 2024-08-02 18:35:47 修改

阅读量1k

点赞数 16

分类专栏：大模型应用文章标签： linux 语言模型语音识别人工智能 windows

于 2024-08-02 18:31:23 首次发布

本文链接：https://blog.csdn.net/imok1234567/article/details/140825906

版权

一、整体介绍

本项目旨在实现一个智能语音问答机器人的本地部署，采用Windows 10操作系统，并集成了最新的语音识别和生成技术。通过结合faster-whisper、Qwen1.5和ChatTTS三大模块，整体能够高效地进行语音识别、自然语言处理和语音合成，为用户提供流畅的语音问答体验。

1.主要模块介绍

1.1.faster-whisper

用于实时语音识别，将用户的语音输入快速转换为文本。
采用先进的语音识别算法，保证了高准确率和低延迟。

1.2.Qwen1.5

作为自然语言处理模块，负责理解和生成回答。
基于最新的语言模型技术，能够理解复杂的用户问题并生成精准的回答。

1.3.ChatTTS

语音合成模块，将Qwen1.5生成的文本回答转换为自然流畅的语音。
支持多种语音效果和情感表达，提升用户的交互体验。

2.部署步骤概述

2.1.环境配置

参考超详细win安装深度学习环境2024最新版（cuda11.8+torch2.2）完成基础环境配置
在之后的步骤中配置faster-whisper、Qwen1.5和ChatTTS所需的运行环境。

2.2.模块集成

下载并加载faster-whisper模型，用于实时语音识别。
集成Qwen1.5模型，实现自然语言处理和回答生成。
配置ChatTTS，完成文本到语音的转换，并实现语音播放功能。

二、语音识别-faster-whisper

whisper是OpenAI公司出品的AI语音识别神器，开源且支持本地部署，支持多种语言识别。而faster-whisper 是通过Transformer模型的快速推理引擎对OpenAI的Whisper模型的重新实现，这种实现比whisper快 4 倍，在相同的精度下，使用更少的内存。

1.安装faster-whisper

pip install faster-whisper

2.下载模型

进入魔搭社区faster-whisper-small · 模型库 (modelscope.cn)，下载模型文件到本地目录。

3.准备一段语音文件

打开网址在线免费文字转语音 - TTSMaker官网 | 马克配音，随便输入一段文字并免费生成语音，将语音复制到本地目录。

4.调用faster-whisper完成语音识别

import time
from faster_whisper import WhisperModel

# 指定模型
model_size = "faster-whisper-small"

# 创建一个Whisper模型，指定模型大小、设备类型和计算类型
model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")

start_time = time.time()
segments, info = model.transcribe("1.mp3", beam_size=5)
end_time = time.time()
elapsed_time = end_time - start_time

print("[识别用时]%.2fs" % elapsed_time)

for segment in segments:
    print("[识别结果] %s" % (segment.text))

识别结果：

PS：faster-whisper最新版只支持cuda12版本，对于cuda11.x的版本，会报错：
RuntimeError: Library cublas64_12.dll is not found or cannot be loaded，请参考RuntimeError: Library cublas64_12.dll is not found or cannot be loaded-CSDN博客完成修改。