开源版GPT-4o语音来袭，Mini-Omni开启实时语音对话

最新推荐文章于 2025-04-08 17:10:39 发布

小马不会过河

最新推荐文章于 2025-04-08 17:10:39 发布

阅读量2.7k

点赞数 16

文章标签： java 人工智能前端知识图谱无人机

本文链接：https://blog.csdn.net/m0_59163425/article/details/141902733

版权

还记得前阵子ChatGPT风靡一时但一直没全量发布的高级语音功能吗？

如今，一个甚至更加强大的实时语音对话AI模型开源了！它的名字叫做：Mini-Omni。

这个由gpt-omni团队开发的开源模型，可以说是语音助手界的一匹黑马。它不仅能实现实时的语音对话，更厉害的是，它还能同时生成文本和音频！

有网友兴奋不已：

“这简直就是科幻电影里的场景啊！以后我们是不是可以和AI助手进行无障碍的实时对话了？”

Mini-Omni的出现，可能会让现有的语音助手们瑟瑟发抖。

想想看，以后我们可能真的能和AI进行流畅的实时对话，就像在和真人聊天一样！

而数次跳票的ChatGPT 4o 语音功能，可能可以永久跳票了。

那么，Mini-Omni有哪些特性呢？

实时语音对话：这意味着你说话的同时，AI就能立即理解并回应，不再有明显的延迟。
同时生成文本和音频：这个功能简直太强大了！AI不仅能说，还能同步给出文字版本，对听力不好的朋友来说简直是福音。
流式音频输出：这个技术确保了对话的流畅性，让整个交互过程更加自然。

Mini-Omni的开源，很可能会引发语音交互领域的一场革命。它不仅能提升用户体验，还可能为听障人士带来更多便利。

想象一下，以后我们可能真的能和AI进行毫无障碍的实时对话，这是多么令人兴奋的事情啊！

对这个项目感兴趣的小伙伴们，我整理好了相关链接：

模型下载：https://hf.co/gpt-omni/mini-omni
论文地址：https://hf.co/papers/2408.16725
代码仓库：https://github.com/gpt-omni/mini-omni

Mini-Omni 官方介绍👇

Mini-Omni：语言模型在流式处理中的听、说、思考能力

Mini-Omni 是一个开源的多模态大型语言模型，能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。

功能特点

✅ 实时语音对话功能，无需额外的ASR或TTS模型。

✅ 边思考边对话，支持同时生成文本和音频。

✅ 支持流式音频输出。

✅ 提供“音频转文本”和“音频转音频”的批量推理，进一步提升性能。

演示

安装

创建一个新的conda环境并安装所需的包：

conda create -n omni python=3.10  
conda activate omni  
  
git clone https://github.com/gpt-omni/mini-omni.git  
cd mini-omni  
pip install -r requirements.txt

快速开始

交互式演示

启动服务器

conda activate omni  
cd mini-omni  
python3 server.py --ip '0.0.0.0' --port 60808

运行 Streamlit 演示

注意：你需要本地运行 Streamlit 并安装 PyAudio。

pip install PyAudio==0.2.14  
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

运行 Gradio 演示

API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

示例：

注意：Gradio 似乎无法立即播放音频流，因此延迟感会稍强。

本地测试

conda activate omni  
cd mini-omni  
# 测试运行预设的音频样本和问题  
python inference.py

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述