GenieBlue：让大模型在手机上跑起来的多模态解决方案

程序员石磊

于 2025-03-20 09:58:24 发布

阅读量301

点赞数 7

分类专栏：大模型文章标签：人工智能大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangmingleiluo/article/details/146388987

版权

大模型专栏收录该内容

35 篇文章

订阅专栏

关键词：大语言模型、多模态、边缘计算、移动端部署

1. 背景痛点

移动端部署难题：多模态大模型（MLLMs）在手机等边缘设备上部署时，纯文本能力下降，且主流NPU不支持混合专家（MoE）结构，导致性能受限。
现有方案缺陷：增加文本数据或调整模型结构的方法无法同时兼顾多模态能力与硬件兼容性。

2. GenieBlue核心创新

结构设计：
- 基于CogVLM改进，跳过MoE结构，通过“复制+LoRA”模块实现多模态与语言能力解耦。
- 纯文本任务使用原LLM，多模态任务激活复制块和LoRA参数，避免性能损耗。
训练策略：
- 分阶段训练：预训练固定ViT和LLM，微调仅优化复制块和LoRA参数，降低计算成本。
- 量化部署：适配iQOO 13智能手机NPU，支持单补丁ViT推理，平衡速度与精度。

3. 实验结果

多模态能力：在MLLM基准中准确率接近Qwen2.5-VL-3B，保留BlueLM-V-3B的97%性能。
语言能力：在LLM基准中无性能损失，优于Qwen2.5VL-3B（下降2%）。
效率表现：令牌输出速度30 token/s，满足日常使用，存储和内存需求略高于原模型。

4. 意义与应用

GenieBlue为移动端多模态应用（如智能助手、图像问答）提供了高效解决方案，推动AI在边缘设备的落地。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员石磊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。