爆火!开源多模态大模型在手机端进行本地部署!

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型& AIGC 技术趋势、大模型& AIGC 落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。


大家好,今天继续聊聊科技圈发生的那些事。

一、MiniCPM-V

我们能把 GPT 本地部署到手机上了!不是用 API,而是完全本地化!

图片

MiniCPM-V,这是一款端侧可用的 GPT-4V 级多模态大模型。MiniCPM 是一个大系列的模型,通常来说,大模型都是部署在服务器上,或是 PC 本地部署的。而 MiniCPM 将大模型部署到了手机上!(当然,苹果手机肯定是用不了的)

图片

系列有两个值得关注的模型,一个是 MiniCPM,一个是 MiniCPM-V,二者的区别主要在于,MiniCPM-V 侧重于图像处理。而今天我们分享的内容,主要关于 MiniCPM-V。

对于这样一款侧重图像分析的模型,我们只需要提供一张图片作为输入,再提供一些文本指示需要根据图片生成的内容,模型就会在很快的时间内提供输出。比如,你可以让它帮你把图片中的内容转成 Markdown 格式,或是分析图上讲了什么。

图片

MiniCPM-V 拥有超级优秀的 OCR 能力。MiniCPM-Llama3-V 2.5 可接受 180 万像素的任意宽高比图像输入,在OCRBench 得分达到 725,超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型,遥遥领先!

图片

借助最新的 RLAIF-V 对齐技术,MiniCPM-Llama3-V 2.5 具有更加可信的多模态行为,幻觉率已经显著低于 GPT-4V-1106,来到了开源模型的 TOP1 宝座。

图片

无论你使用的是 Windows、Mac 还是手机,MiniCPM-V 都能兼容你的设备提供本地部署方案。当然,Huggingface 的在线体验 demo 也已经发布。感兴趣的小伙伴,可以根据条件自行试试。

在线体验地址:

https://huggingface.co/spaces/openbmb/MiniCPM-V-2

项目地址:

https://github.com/OpenBMB/MiniCPM-V

二、VirtualWife

VirtualWife,虚拟老婆?一个令人激动,又有一点害羞的名字,事实上,这是一款虚拟数字人项目。基于 Python 开发,运用了自然语言处理(NLP)和机器学习技术,你可以创建属于自己的 AI 伴侣。

不知道大家是否有了解过前些年大火的游戏《主播女孩重度依赖》?在游戏中,玩家作为男友陪伴患有心理疾病的主播女友,不断攻略发展,最终走向不同的结局。

图片

即使拥有20多种不同的结局和拉满的小细节,游戏的内容始终是人们设定好的。现在,VirtualWife 项目可以让我们真正的实现虚拟伴侣,不再是类似 Galgame 的交互,而是配合人工智能技术,实现你本人“私人订制”的伴侣。

图片

实现 VirtualWife 的核心是 NLP 技术。NLP 即 Natural language processing,自然语言处理。这使得 AI 可以通过自然语言输入进行语义的理解和分析,并且能给出相应的输出。同时,随着交互越来越深入,VirtualWife 会通过持续的学习,生成更具个性化的回复。

于是,经过一段时间的培养,一个可以陪伴你日常生活,听你倾诉,有问必答的虚拟伴侣就诞生了。下至生活琐碎,上至天文地理,对你的 VirtualWife 来说都不在话下。

如果你愿意的话,通过 VirtualWife 创造的虚拟伴侣可以支持B站直播,你可以在直播间的弹幕里发信息,它会像一个真正的虚拟主播一般回复你。

图片

项目通过 Docker 部署,项目主页上也有很完整的部署教程,感兴趣的小伙伴可以自行体验一下。

项目地址:

https://github.com/yakami129/VirtualWife

好了,本期的内容就是这么多,我们下期再见!

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

<think>好的,我现在需要帮助用户了解如何在本地部署QWen-Omni-7B模型。首先,我需要回忆一下之前提供的引用内容。引用[1]提到该模型支持手机端部署,内存占用低于2GB,并且在Hugging Face和ModelScope等平台开源,提供了预训练模型和技术报告。引用[2]则展示了一个使用Hugging Face的transformers库加载模型和处理多模态输入的代码示例。 接下来,用户的需求是本地部署的方法和教程。根据引用内容,部署主要涉及从Hugging Face或ModelScope下载模型,使用transformers库加载模型,并进行多模态处理。我应该分步骤说明这些过程,确保用户能够按照步骤操作。 首先,环境准备。需要安装PyTorch和transformers库,可能还需要其他依赖如accelerate和sentencepiece。要提醒用户根据CUDA版本安装PyTorch,并安装必要的库。 第二步,模型下载。用户需要从Hugging Face的模型仓库获取模型,使用git lfs或者直接下载。如果遇到网络问题,可以建议使用镜像站点,比如ModelScope。 第三步,编写推理代码。需要展示一个示例代码,使用AutoModelForCausalLM和AutoProcessor加载模型和处理器,处理多模态输入,并生成输出。代码需要包括模型加载、输入处理和生成的步骤。 另外,部署优化部分,用户可能需要了解如何减少内存占用,比如使用半精度或量化技术,以及利用device_map自动分配设备。同时,内存不足的问题需要给出解决方案,比如启用内存优化参数或降低批量大小。 还要考虑用户可能遇到的问题,比如依赖安装错误、模型下载慢或内存不足,需要提供常见问题的解决方法。例如,建议使用国内镜像源安装依赖,或者调整模型加载参数。 最后,根据用户提供的引用,模型支持多模态应用,如视频和音频处理,因此代码示例中需要包含处理这些输入的步骤,如processor调用时传入videos和audios参数。 总结起来,回答需要分步骤详细说明环境准备、模型下载、代码编写、部署优化和常见问题处理,同时引用提供的资料中的信息,如模型部署能力和代码示例。确保用户能够按照步骤顺利部署,并处理可能遇到的问题。</think>以下是关于QWen-Omni-7B模型本地部署的详细指南: ### 一、环境准备 1. 安装基础依赖: ```bash pip install torch>=2.0 transformers>=4.37 accelerate sentencepiece ``` 建议使用CUDA 11.8+环境,若使用CPU需添加`--extra-index-url`参数安装CPU版PyTorch[^1] 2. 多模态支持扩展(可选): ```bash pip install ffmpeg-python opencv-python librosa ``` ### 二、模型下载 通过Hugging Face官方仓库获取: ```bash git lfs install git clone https://huggingface.co/Qwen/Qwen2.5-Omni-7B ``` 或使用ModelScope(国内推荐): ```python from modelscope import snapshot_download model_dir = snapshot_download('qwen/Qwen2.5-Omni-7B') ``` ### 三、基础部署代码 ```python from transformers import AutoModelForCausalLM, AutoProcessor # 加载模型(自动分配设备) model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen2.5-Omni-7B", device_map="auto", torch_dtype="auto" ) # 初始化多模态处理器 processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B") # 多模态输入处理示例 inputs = processor( text="请描述视频内容:", videos="demo.mp4", audios="demo.wav", return_tensors="pt" ).to(model.device) # 生成响应 outputs = model.generate(**inputs, max_new_tokens=500) print(processor.decode(outputs[0])) ``` ### 四、部署优化技巧 1. **内存优化**: ```python model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen2.5-Omni-7B", device_map="auto", torch_dtype=torch.float16, # 半精度模式 low_cpu_mem_usage=True ) ``` 2. **量化部署**(需安装bitsandbytes): ```python model = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen2.5-Omni-7B", load_in_4bit=True, # 4-bit量化 device_map="auto" ) ``` ### 五、常见问题解决 1. **CUDA内存不足**: - 启用内存优化:`model.enable_auto_optimize()` - 降低批量大小:`inputs = processor(..., batch_size=1)` 2. **多模态输入支持**: ```python # 视频需转换为MP4格式(H.264编码) # 音频支持WAV/MP3格式,采样率16kHz ``` 该模型在NVIDIA RTX 3090(24GB显存)上可流畅运行视频+文本的多模态推理,手机端部署需使用量化模型[^1][^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值