bailing:真心不错,Ai又整新花样,这款开源语音对话项目能快速让你的项目拥有和人一样对话能力,后台系统能快速集成,还在等什么呢~~

嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法

百聆是一个开源的语音对话助手,它的目标是让机器能够通过语音与用户进行自然的对话。该项目集成了自动语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)等多项技术,打造了一个类似GPT-4o的语音对话机器人。值得一提的是,百聆在保证高质量对话体验的同时,将端到端时延降低至800ms,且无需GPU即可运行,非常适合边缘设备和低资源环境。

百聆logo

百聆logo

功能特点

百聆的项目特点如下:

  • 高效开源模型:百聆使用了多个开源模型,确保了高效、可靠的语音对话体验。

  • 无需GPU:通过优化,百聆可以在本地部署,无需GPU即可提供类GPT-4的性能表现。

  • 模块化设计:ASR、VAD、LLM和TTS模块相互独立,可以根据需求进行替换和升级。

  • 支持记忆功能:百聆具备持续学习能力,能够记忆用户的偏好与历史对话,提供个性化的互动体验。

  • 支持工具调用:百聆能够灵活集成外部工具,用户可以通过语音直接请求信息或执行操作,提升助手的实用性。

  • 支持任务管理:百聆能够高效管理用户任务,跟踪进度、设置提醒,并提供动态更新,确保用户不错过任何重要事项。

技术构成

百聆通过以下技术组件实现其功能:

  • ASR:使用FunASR进行语音识别,将语音转换为文本。

  • VAD:使用silero-vad进行语音活动检测,确保只处理有效语音片段。

  • LLM:使用deepseek作为大语言模型,处理用户输入并生成响应。

  • TTS:使用edge-tts、ChatTTS或MacOs say将文本转换为语音。

架构情况

支持的工具

以下是百聆支持的一些工具:

函数名描述功能示例
get_weather获取某个地点的天气信息提供地点名称后,返回该地点的天气情况用户说:“杭州天气怎么样?” → zhejiang/hangzhou
ielts_speaking_practiceIELTS(雅思)口语练习生成雅思口语练习题目和对话,帮助用户进行雅思口语练习-
get_day_of_week获取当前的星期几或日期当用户询问当前时间、日期或者星期几时,返回相应的信息用户说:“今天星期几?” → 返回当前的星期几
schedule_task创建一个定时任务用户可以指定任务的执行时间和内容,定时提醒用户用户说:“每天早上8点提醒我喝水。” → time: '08:00', content: '提醒我喝水'
open_application在 Mac 电脑上打开指定的应用程序用户可以指定应用程序的名称,脚本将在 Mac 上启动相应的应用用户说:“打开Safari。” → application_name: 'Safari'
web_search在网上搜索指定的关键词根据用户提供的搜索内容,返回相应的搜索结果用户说:“搜索最新的科技新闻。” → query: '最新的科技新闻'

安装与运行

依赖环境

请确保你的开发环境中安装了以下工具和库:

  • Python 3.8 或更高版本

  • pip 包管理器

  • FunASR、silero-vad、deepseek、edge-tts 所需的依赖库

安装步骤

  1. 克隆项目仓库:

git clone https://github.com/wwbin2017/bailing.git
cd bailing
  1. 安装所需依赖:

pip install -r requirements.txt
  1. 配置环境变量:

    • 打开config/config.yaml配置ASR LLM等相关配置

    • 下载SenseVoiceSmall到目录models/SenseVoiceSmall SenseVoiceSmall下载地址

    • 去deepseek官网,获取配置api_key,deepseek获取api_key,当然也可以配置openai、qwen、gemini、01yi等其他模型

  2. 运行项目:

cd server
python server.py # 启动后端服务,也可不执行这一步

安装与运行

想要体验百聆,你需要确保你的开发环境中安装了Python 3.8或更高版本,以及必要的依赖库。安装步骤如下:

  1. 克隆项目仓库到本地。

  2. 安装项目依赖。

  3. 配置环境变量,包括ASR、LLM等相关配置。

  4. 运行项目。

在线Demo

bailing audio dialogue

bailing audio dialogue

测试地址:

https://www.modelscope.cn/studios/iic/SenseVoice

界面效果

同类项目对比

在开源语音助手领域,百聆与其他项目相比,具有以下优势:

  • 高质量语音对话:整合了优秀的ASR、LLM和TTS技术,确保了流畅和准确的语音对话。

  • 轻量化设计:无需高性能硬件即可运行,适应性强。

  • 完全开源:鼓励社区贡献与二次开发,潜力无限。

结语

百聆作为一个开源的语音对话助手,不仅展示了人工智能技术的魅力,也为开发者和用户提供了无限的可能。如果你对语音技术感兴趣,不妨试试这个项目,或许它会给你带来意想不到的惊喜。

项目地址

https://github.com/wwbin2017/bailing
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值