【AIGC半月报】AIGC大模型启元:2025.01(下)

【AIGC半月报】AIGC大模型启元:2025.01(下)

(1)MiniCPM-o 2.6(面壁智能音视听大模型)

2025.01.16 MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型。最新更新的模型为MiniCPM-o 2.6。
  MiniCPM-o 是从 MiniCPM-V 升级的最新端侧多模态大模型系列。该系列模型可以以端到端的方式,接受图像、视频、文本、音频作为输入,并生成高质量文本和语音输出。
  自2024年2月以来,MiniCPM这个项目以实现高性能和高效部署为目标,发布了6个版本的模型。上一次发布的版本为MiniCPM-V 2.6。
  MiniCPM-V 2.6: MiniCPM-V 系列中性能最佳的模型。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V。它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等的单图理解表现,并成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。
  从介绍中看,上一次发布的版本已经很优秀了。而这一次发布的MiniCPM-o 2.6版本简直有点“炸裂”。
  MiniCPM-o 2.6: 🔥🔥🔥 MiniCPM-o 系列的最新、性能最佳模型。总参数量 8B,视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中,MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。

参考博客
全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑
国产“小钢炮”有点屌,开源低配运行,实时视频语音,支持声音克隆!
代码https://github.com/OpenBMB/MiniCPM-o
模型https://huggingface.co/openbmb/MiniCPM-o-2_6
体验地址https://minicpm-omni-webdemo-us.modelbest.cn/?type=0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值