阿里首个全模态大模型Qwen2.5-Omni-7B

简介

3月27日凌晨,阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B。Qwen2.5-Omni-7B 是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。感知四种模态、流式生成文本和语音,太强大了。

核心架构与方法

这张图片展示了 Qwen2.5-Omni 多模态模型的不同交互功能,具体如下:

  • 中心部分:呈现了 Qwen2.5-Omni 的架构,包含视觉编码器(Vision Encoder)和音频编码器(Audio Encoder)用于感知信息,Qwen2.5-Omni Thinker 进行处理,Qwen2.5-Omni Talker 结合 Streaming Codec Decoder 生成回应,支持语音输出。
  • 四种交互场景
    • Video-Chat(视频聊天):用户询问视频中左右两人分别说了什么,模型以语音形式回复两人的话语内容。
    • Text-Chat(文本聊天):用户请模型帮忙写母亲节留言,模型以文本形式输出一段对母亲表达感恩的话语。
    • Image-Chat(图像聊天):用户请求解答黑板上的数学题,模型以语音形式给出解题思路和答案。
    • Audio-Chat(音频聊天):用户请模型描述一段音乐,模型以语音形式描述了音乐的调式、节拍、和弦进行和节奏等信息 。

 Qwen2.5-Omni 多模态模型的工作架构,具体如下:

  • 底部输入层:视觉编码器(Vision Encoder)接收视频画面(以不同帧展示,有高度和宽度维度),音频编码器(Audio Encoder)接收音频信号(以波形展示,有时间维度),同时还可以输入文本(如 “Please describe this video with audio...”)。
  • 中间处理层:Qwen2.5-Omni Thinker 处理来自视觉、音频编码器的隐藏状态(分别为 Vision Hidden、Audio Hidden)以及文本隐藏状态(Text Hidden)等信息,图中用不同颜色方块表示各类 token 和隐藏状态,箭头指示数据的前向传播(Forward Propagation)和反向传播(Backward Propagation)方向。
  • 顶部输出层:Qwen2.5-Omni Talker 基于中间处理结果,通过 Streaming Codec Decoder 生成音频输出(以波形表示),Codec Token 和 Codec Hidden 也参与这一过程 。 图左上角还有不同颜色方块对应的 token 和隐藏状态的说明。

模型效果

对比了不同模型在多模态各领域的性能表现,具体如下:

  • 对比模型:包括 Qwen2.5-Omni、Gemini 1.5-Pro、Qwen2-Audio、Qwen2.5-VL、CosyVoice 2,以及 Human(人类表现)。
  • 评估领域:从左到右分别是 Omni(综合多模态,用 OmniBench 评估)、Audio(音频,如 CoVoST2 zh-en 和 MMAU 评估)、Image(图像,如 MMMU 和 MMStar 评估)、Video(视频,用 MVBench 评估)、Speech Generation(语音生成,如 Seed-tts-eval test-hard 和 NMOS 评估)。
  • 结果分析:在需要整合多个模态的任务中,如 OmniBench,Qwen2.5-Omni 达到了最先进的性能。在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU, MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval 和主观自然度)等方面表现出色。

马上就可以想打电话一样和大模型对话了!!

先去部署到本地体验一下,后续补发效果。

### Qwen2.5-Omni-7B 模型介绍 Qwen2.5-Omni-7B 是通义千问系列中的多模态大模型之一,具有强大的跨领域理解和生成能力。该模型支持多种任务场景,包括但不限于文本生成、图像理解、语音处理以及复杂逻辑推理等[^1]。 #### 主要特性 1. **大规模参数量**:Qwen2.5-Omni-7B 的参数规模达到 70亿级别,能够更好地捕捉复杂的模式并提供高质量的结果。 2. **多模态融合**:除了传统的自然语言处理外,还集成了视觉和音频等多种感知技术,使得它可以应对更加丰富的应用场景。 3. **高效推理性能**:针对实际应用需求优化后的架构设计,在保持高精度的同时降低了计算资源消耗,适合部署于不同硬件环境之中。 4. **广泛的适配性**:无论是云端服务器还是边缘设备上都能实现良好运行效果;同时也提供了灵活易用接口供开发者快速集成到各自项目当中去[^2]。 #### 下载方式 对于希望获取此版本模型文件的用户来说,可以通过以下两种途径完成下载操作: ##### 方法一 使用 ModelScope 平台命令行工具 通过 pip 安装 modelscope 工具包之后执行如下指令即可获得对应权重数据: ```bash pip install modelscope modelscope download --model Qwen/Qwen2.5-Omni-7B ``` ##### 方法二 利用 Ollama 实现本地化加载 如果倾向于采用更轻量化解决方案,则可以考虑借助开源框架 Ollama 来管理整个流程。具体而言只需访问其官网页面找到名为 `qwen2.5-omni` 的选项(注意区分大小写),接着按照提示完成必要的配置步骤便能顺利取得目标资产了。需要注意的是,由于此类大型预训练模型通常占据较多存储空间,因此提前确认剩余容量是否充足显得尤为重要——以当前为例大约需要预留至少 8GB 可用磁盘位置来容纳部组件[^3]。 ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-Omni-7B") model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", device_map="auto", torch_dtype=torch.float16) input_text = "请介绍一下量子计算机的工作原理" inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值