VERBI - 语音助手：开启智能语音交互的新时代

最新推荐文章于 2024-11-06 07:57:51 发布

沈婕嵘Precious

最新推荐文章于 2024-11-06 07:57:51 发布

阅读量434

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00377/article/details/142245293

版权

VERBI - 语音助手：开启智能语音交互的新时代

Verbi A modular voice assistant application for experimenting with state-of-the-art transcription, response generation, and text-to-speech models. Supports OpenAI, Groq, Elevanlabs, CartesiaAI, and Deepgram APIs, plus local models via Ollama. Ideal for research and development in voice technology. 项目地址: https://gitcode.com/gh_mirrors/ve/Verbi

项目介绍

欢迎来到 VERBI - 语音助手项目！🎙️ 这是一个模块化的语音助手应用程序，旨在让您轻松实验和比较各种最先进的（SOTA）模型。无论您是开发者、研究人员还是语音技术爱好者，VERBI 都为您提供了一个灵活的平台，让您能够自由选择和切换不同的 SOTA 模型进行语音转录、响应生成和文本转语音（TTS）。

项目技术分析

VERBI 的核心在于其模块化设计，允许用户根据需求选择不同的模型进行组合。项目支持多种 API，包括 OpenAI、Groq 和 Deepgram，同时也提供了本地模型的占位符，方便用户进行本地模型的集成和测试。

主要技术组件

语音转录：支持 OpenAI、Groq、Deepgram 和 FastWhisperAPI 等多种模型。
响应生成：支持 OpenAI、Groq 和 Ollama 等模型。
文本转语音：支持 OpenAI、Deepgram、ElevenLabs 和本地模型。

项目结构

voice_assistant/
├── voice_assistant/
│   ├── __init__.py
│   ├── audio.py
│   ├── api_key_manager.py
│   ├── config.py
│   ├── transcription.py
│   ├── response_generation.py
│   ├── text_to_speech.py
│   ├── utils.py
│   ├── local_tts_api.py
│   ├── local_tts_generation.py
├── .env
├── run_voice_assistant.py
├── setup.py
├── requirements.txt
└── README.md