嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
百聆是一个开源的语音对话助手,它的目标是让机器能够通过语音与用户进行自然的对话。该项目集成了自动语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)等多项技术,打造了一个类似GPT-4o的语音对话机器人。值得一提的是,百聆在保证高质量对话体验的同时,将端到端时延降低至800ms,且无需GPU即可运行,非常适合边缘设备和低资源环境。
百聆logo
功能特点
百聆的项目特点如下:
-
高效开源模型:百聆使用了多个开源模型,确保了高效、可靠的语音对话体验。
-
无需GPU:通过优化,百聆可以在本地部署,无需GPU即可提供类GPT-4的性能表现。
-
模块化设计:ASR、VAD、LLM和TTS模块相互独立,可以根据需求进行替换和升级。
-
支持记忆功能:百聆具备持续学习能力,能够记忆用户的偏好与历史对话,提供个性化的互动体验。
-
支持工具调用:百聆能够灵活集成外部工具,用户可以通过语音直接请求信息或执行操作,提升助手的实用性。
-
支持任务管理:百聆能够高效管理用户任务,跟踪进度、设置提醒,并提供动态更新,确保用户不错过任何重要事项。
技术构成
百聆通过以下技术组件实现其功能:
-
ASR:使用FunASR进行语音识别,将语音转换为文本。
-
VAD:使用silero-vad进行语音活动检测,确保只处理有效语音片段。
-
LLM:使用deepseek作为大语言模型,处理用户输入并生成响应。
-
TTS:使用edge-tts、ChatTTS或MacOs say将文本转换为语音。
架构情况
支持的工具
以下是百聆支持的一些工具:
函数名 | 描述 | 功能 | 示例 |
---|---|---|---|
get_weather | 获取某个地点的天气信息 | 提供地点名称后,返回该地点的天气情况 | 用户说:“杭州天气怎么样?” → zhejiang/hangzhou |
ielts_speaking_practice | IELTS(雅思)口语练习 | 生成雅思口语练习题目和对话,帮助用户进行雅思口语练习 | - |
get_day_of_week | 获取当前的星期几或日期 | 当用户询问当前时间、日期或者星期几时,返回相应的信息 | 用户说:“今天星期几?” → 返回当前的星期几 |
schedule_task | 创建一个定时任务 | 用户可以指定任务的执行时间和内容,定时提醒用户 | 用户说:“每天早上8点提醒我喝水。” → time: '08:00', content: '提醒我喝水' |
open_application | 在 Mac 电脑上打开指定的应用程序 | 用户可以指定应用程序的名称,脚本将在 Mac 上启动相应的应用 | 用户说:“打开Safari。” → application_name: 'Safari' |
web_search | 在网上搜索指定的关键词 | 根据用户提供的搜索内容,返回相应的搜索结果 | 用户说:“搜索最新的科技新闻。” → query: '最新的科技新闻' |
安装与运行
依赖环境
请确保你的开发环境中安装了以下工具和库:
-
Python 3.8 或更高版本
-
pip
包管理器 -
FunASR、silero-vad、deepseek、edge-tts 所需的依赖库
安装步骤
-
克隆项目仓库:
git clone https://github.com/wwbin2017/bailing.git
cd bailing
-
安装所需依赖:
pip install -r requirements.txt
-
配置环境变量:
-
打开config/config.yaml配置ASR LLM等相关配置
-
下载SenseVoiceSmall到目录models/SenseVoiceSmall SenseVoiceSmall下载地址
-
去deepseek官网,获取配置api_key,deepseek获取api_key,当然也可以配置openai、qwen、gemini、01yi等其他模型
-
-
运行项目:
cd server
python server.py # 启动后端服务,也可不执行这一步
安装与运行
想要体验百聆,你需要确保你的开发环境中安装了Python 3.8或更高版本,以及必要的依赖库。安装步骤如下:
-
克隆项目仓库到本地。
-
安装项目依赖。
-
配置环境变量,包括ASR、LLM等相关配置。
-
运行项目。
在线Demo
测试地址:
https://www.modelscope.cn/studios/iic/SenseVoice
界面效果
同类项目对比
在开源语音助手领域,百聆与其他项目相比,具有以下优势:
-
高质量语音对话:整合了优秀的ASR、LLM和TTS技术,确保了流畅和准确的语音对话。
-
轻量化设计:无需高性能硬件即可运行,适应性强。
-
完全开源:鼓励社区贡献与二次开发,潜力无限。
结语
百聆作为一个开源的语音对话助手,不仅展示了人工智能技术的魅力,也为开发者和用户提供了无限的可能。如果你对语音技术感兴趣,不妨试试这个项目,或许它会给你带来意想不到的惊喜。
项目地址
https://github.com/wwbin2017/bailing