ChatToPC(桌面智能问答语音助手)
一个在Windows运行的AI对话助手项目。它会在用户按住空格键时录制音频,使用本地 音频转文字API(SenseVoice)转录音频,将文本发送给大语言模型(LLM,如 OpenAI 的 GPT 系列),然后可以选择性地在弹窗中显示回复,和/或使用文本转语音(TTS)将回复朗读出来。
项目地址
项目克隆
git clone https://github.com/bossdong955/ChatToPC
功能特性
- 按键说话 (Push-to-Talk): 按住空格键进行录音。
- 音频录制: 使用 sounddevice 和 numpy 进行录音,soundfile 保存 WAV 文件。
- 语音转录: 将录制的音频文件路径发送到可配置的转录 API 端点。
- LLM 交互: 使用 langchain-openai 与 OpenAI 兼容的 API 进行交互(包括 OpenAI 官方 API )。
- 文本转语音 (TTS): 使用 pyttsx3 和 sounddevice 朗读 LLM 的回复。
- 图形界面 (GUI) 通知:
- 使用 tkinter 显示临时的状态弹窗,如“正在聆听中…”、“正在生成中…”。
- 可选地使用 tkinter 在一个独立的弹窗中显示最终的 LLM 回复。
- 高度可配置: 所有主要设置(API 密钥、URL、设备索引、功能开关等)均可通过 .env 文件进行配置。
具体请参考项目说明文档,制作不易,对你有帮助的话请在github上给作者点个stars。