Windows智能问答语音助手

bossdong955

已于 2025-04-15 19:02:42 修改

阅读量473

点赞数 12

分类专栏： Python 文章标签： python github 开源 git 语音识别人工智能

于 2025-04-15 18:01:10 首次发布

本文链接：https://blog.csdn.net/comfortableman/article/details/147255195

版权

Python 专栏收录该内容

3 篇文章

订阅专栏

ChatToPC（桌面智能问答语音助手）

一个在Windows运行的AI对话助手项目。它会在用户按住空格键时录制音频，使用本地音频转文字API（SenseVoice）转录音频，将文本发送给大语言模型（LLM，如 OpenAI 的 GPT 系列），然后可以选择性地在弹窗中显示回复，和/或使用文本转语音（TTS）将回复朗读出来。
在这里插入图片描述

项目地址

ChatToPC

项目克隆

git clone https://github.com/bossdong955/ChatToPC

功能特性

按键说话 (Push-to-Talk): 按住空格键进行录音。
音频录制: 使用 sounddevice 和 numpy 进行录音，soundfile 保存 WAV 文件。
语音转录: 将录制的音频文件路径发送到可配置的转录 API 端点。
LLM 交互: 使用 langchain-openai 与 OpenAI 兼容的 API 进行交互（包括 OpenAI 官方 API ）。
文本转语音 (TTS): 使用 pyttsx3 和 sounddevice 朗读 LLM 的回复。
图形界面 (GUI) 通知:
- 使用 tkinter 显示临时的状态弹窗，如“正在聆听中…”、“正在生成中…”。
- 可选地使用 tkinter 在一个独立的弹窗中显示最终的 LLM 回复。
高度可配置: 所有主要设置（API 密钥、URL、设备索引、功能开关等）均可通过 .env 文件进行配置。