文 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
端侧 AI 这个概念已经火了一段时间。从最早微软提出了“小模型”(SLM)开始,几个法国人创立了一家叫 Mistral AI 的公司,带头把大语言模型弄的越来越小。后面谷歌苹果两家大厂响应了号召,分别推出了 Gemini Nano 和 Apple Intelligence,代表安卓与 iOS 两大阵营给出了一道范式。
但直到现在,端侧 AI 依然还是个很新颖的东西,除了开发者以外,很少有人会尝试在自己的小笔记本电脑上跑 AI 模型,更不要说手机了。大家对这种形式的 AI 该占多少内存,其实也没什么头绪:是像《原神》这样的手机跑分指标游戏一样,占用 30-40 GB,让手机不停运转发烫?还是说,无缝集成到手机的 OS 里面,让用户对 AI 几乎没有感知?
前者对于一个每天都要 24 小时运行的应用来说,过于苛刻;而后者,你又会担心这样的 AI 性能是不是不够用,到最后发现还不如切成网页版的 ChatGPT 好使。手机上的人工智能,究竟是该像电子游戏一样高负载,还是像系统软件一样低耗能,这是个问题。
在国内,面壁智能一直专注于这个问题的终极答案。这家清华系大模型公司,今年因为被斯坦福的 AI 团队抄袭而爆火,而他们当时被抄的,事实上就是一款端侧上的多模态模型。
9 月 5 日,面壁智能发布了旗舰级端侧模型 MiniCPM 3.0,首次将超越 GPT-3.5 的水平 —— 也就是 2022 年 ChatGPT 刚问世时展现的性能,带到了手机上面。模型参数 40 亿,仅仅只有传闻中闭源 GPT 参数的百分之一有余。在量化之后,它甚至在手机上只占 2GB,是现在很多手机游戏的十分之一有余。
值得一提的是,这个系列继续保持着优良传统:开源。
MiniCPM 3.0 开源地址:
GitHub:
https://github.com/OpenBMB/MiniCPM
HuggingFace:
https://huggingface.co/openbmb/MiniCPM3-4B
往期报道链接:
千元机也能本地跑起大模型?面壁智能开源 MiniCPM 终端旗舰大模型
面壁 MiniCPM 小钢炮瞄准多模态 Agent:幻觉水平超越 GPT-4V,中文 OCR 能力创新高
端侧模型的优势:持续交互
前文已经提到,MiniCPM 3.0 一共仅使用了 4B(40 亿)参数,超越了 GPT-3.5 的性能。这一突破性进展其实得益于面壁智能对于大模型技术底层的深入探索和工程化迭代,这一过程在面壁内部称为“大模型科学化”,他们将“提升知识密度”视为高效大模型的核心原则,并发挥了这家公司独到的取名天赋,发明了一个“面壁定律”。
总而言之,MiniCPM 3.0 在自然语言理解、知识处理、代码生成和数学运算等多个方面展现出优秀能力,在多项基准测试中超越了 Qwen2-7B、Phi-3.5、GLM4-9B 和 LLaMa3-8B 几款知名模型。
在实际使用 AI 模型的时候,我们经常会头疼文本输入长度不够的问题。而到了离线的端侧模型上,看着小小的手机,更容易对它的性能发愁。MiniCPM 3.0 的解决方案是引入了 LLM x MapReduce 长文本分帧处理技术,实现了理论上“无限”的上下文长度。通俗点说,就是将超长的文本内容分割成多个可管理的片段,然后并行处理这些片段,提取关键信息,最后汇总结果。
在 InfiniteBench 评测中,MiniCPM 3.0 实际的长文本能力超越了 GPT-4 和 KimiChat 等标杆模型。特别值得注意的是,随着文本长度增加,MiniCPM 3.0 展现出更稳定的性能,这对于处理长篇文档、学术论文等场景具有重要意义。
智能体应用是端侧 AI 必争之地,其中一项至关重要的技术是函数调用(Function Calling),它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统,最终实现我们在苹果开发者大会上看到的那套经典应用方式:通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库。
MiniCPM 3.0 的函数调用能力接近 GPT-4o 级别,在 Berkeley Function-Calling Leaderboard 上的表现优于多款主流模型。
当然,最近每家 AI 厂商都必须宣传的检索增强生成(RAG)技术也塞进来了。RAG 是目前业界解决“幻觉”问题的主流方案,而面壁智能这次发布了 MiniCPM-Embedding 检索模型、MiniCPM-Reranker 重排序模型和针对 RAG 场景优化的 LoRA 插件。在 MTEB 评测中,其检索模型在中文任务上排名第一,英文任务排名第十三。
说到此处,你可能会有各种疑惑:要开发,我为什么不选云端?满大街都有 4G/5G 网络,为什么还要用终端模型?一个性能介于 GPT-3.5 和 GPT-4o 的端侧模型,对于广大的开发者群体究竟有哪些用途?这些问题 —— 我们同样也有。因此,CSDN 从开发者的视角向面壁智能 CTO 曾国洋提出了几道问题,后文还有对面壁智能联合创始人 & CEO 李大海的采访,请不要划走。
CSDN:从开发者的视角出发,我们主要好奇的是端侧 AI 开发相关的问题。目前,各家公司都推出了他们的端侧模型,但对于开发者而言,这仍然是一个较新的领域。请问 MiniCPM 3.0 是否提供了专门的 SDK 或 API 供开发者集成到他们的应用程序中?此外,针对这种新兴的端侧 AI 开发,你们计划如何帮助开发者快速上手?
曾国洋:对于 MiniCPM 3.0 而言,我们已经适配了大多数常见的开源推理框架。许多开发者基于这些框架执行具体的下游任务和部署。在这方面,我们拥有较为完善的生态系统支持。对于将模型部署在如手机等边缘设备上,我们也在持续跟进相关开源推理框架,并有专门团队负责此项工作。
CSDN:相较于其他类似端侧模型,在开发过程中具有哪些独特的优势或面临的挑战?
曾国洋:MiniCPM 3.0 是一款强大的文本基座模型,其性能显著超越同等规模的模型。对于开发者而言,在微调和训练过程中所需的资源更少。此外,MiniCPM 3.0 的功能非常全面,涵盖了之前提到的函数调用、代码解释以及外挂 RAG 的解决方案。我们还提供了通过 MapReducer 处理更长输入序列的方法。
CSDN:面壁一直在宣传“野外离线使用大模型”的应用场景,所以我很好奇端侧模型在离线与在线环境中是否存在差异?考虑到离线环境无需与外部环境实时交互,是否会更加高效?
曾国洋:在端侧模型的应用中,无论是离线还是在线,甚至是隐私敏感场景,都需要强大端侧模型的支持。云端功能在这种情况下可能不太适用。
端侧模型的一大优势在于交互性。任何云端解决方案都需要通过网络访问,而在端侧模型中,若要实现具身智能这种主动交互的方案,模型需要持续感知环境并作出决策。如果这些任务由云端完成,则需要频繁的网络通信,这不仅增加了技术实现的复杂性,还会带来更高的成本压力。因此,对于需要持续交互的任务,端侧模型是更优的选择。
CSDN:我曾经还看到有人离线部署大模型,构建了一个可以上传本地知识库进行 RAG 问答的 Agent 应用。随着端侧 AI 的普及,这种应用的需求应该会不少。
曾国洋:确实存在此类需求,因此在 MiniCPM 3.0 中,我们加入了函数调用和代码解释的功能,这些功能与 Agent 相关,受到较多关注。
如果你想进一步了解面壁智能和曾国洋,欢迎点击阅读:《26 岁面壁智能 CTO 曾国洋:“卷”参数没意义,不提升模型效率,参数越大浪费越多 | AGI 技术 50 人》
升级现有应用场景
创造全新的应用场景
作为端侧模型,MiniCPM 3.0 在保持高性能的同时,也注重了实际应用的便利性。前文已经提到,量化后的模型仅占用 2.2GB 内存,比我手机里的 QQ 微信都要小多了。这使得模型在弱网络环境下仍能保持低延迟运行,同时也更好地保护了用户数据隐私。
面对更遥远的未来,我们从技术以外的角度对面壁智能联合创始人 & CEO 李大海也进行了访谈。他阐述了面壁智能在竞争激烈的 AI 市场中的战略定位,解释了公司如何与终端设备制造商合作,以及端侧 AI 可能带来的新应用模式。
CSDN:这两年,各大模型厂商都选择了发布自己的 App,而面壁一直在坚持做开源端侧模型。你们如何定位自己在当前竞争激烈的 AI 市场中的位置?你们目前对于目标客户群体的规划定位是怎样的?
李大海:这是一个非常好的问题。目前,我们将重点放在端侧模型上。端侧模型适用于两大主要场景:一是升级现有应用场景,二是创造全新的应用场景。前者指的是利用模型为现有场景增添新的价值;后者则是围绕模型创建全新的使用场景。
对于端侧模型而言,我们看到的主要应用场景包括智能手机、汽车以及个人电脑等。现阶段,我们的目标是服务于终端设备制造商,通过端侧模型提升整个系统的用户体验。苹果在其 WWDC(全球开发者大会)上展示的 Apple Intelligence 就是一个很好的例证。
随着这一阶段的发展趋于成熟,我们可能会将此能力推广至更高层次的应用开发者。然而,现阶段将端侧模型提供给应用开发者面临巨大挑战。例如,一旦涉及应用层面的部署,由于用户使用的是多种不同配置的设备,要在所有这些设备上成功部署端侧模型极具挑战性。因此,现阶段我们优先与设备制造商合作,确保新发布的设备能够顺利部署端侧模型。
CSDN:现在 Google 已经在 Pixel 系列手机推出了自家的 Gemini Nano 模型,苹果也准备发布 AI iPhone。似乎在端侧模型领域,手机厂商或传统厂商具有天然的用户优势,因为用户可能更倾向于根据习惯选择 AI,而非看模型的性能。那请问面壁是否有计划与这类厂商合作?面对这些厂商的竞争,面壁有何看法?
李大海:目前,我们确实在积极与中国的终端设备制造商合作。我们相信,我们能够更好地服务于这些厂商。面壁智能在端侧模型方面的领先地位是我们的一大优势,许多厂商也认可我们在这一领域的技术实力。因此,我们有信心能够更好地服务这些合作伙伴。
但是,我不认为这些厂商会因为应用场景的优势而放弃“卷”自研模型的性能,因为在汽车和智能手机领域,市场竞争极为激烈。终端市场中,具备更高智能水平的产品是未来的销售热点。因此,各厂商都在寻求最佳的端侧模型能力,以满足消费者的需求。
CSDN:从个人消费者的角度来看,近期许多 AI 应用似乎仍未摆脱早期 ChatGPT 的模式,真正的创新应用较少。请问您如何看待未来几年内 AI 技术,特别是大语言模型在应用发展趋势上的变化?是否有可能随着端侧 AI 的普及,会出现专属于端侧设备的全新应用模式?
李大海:首先,我认为大语言模型是一项划时代的技术,这项技术可以应用于各行各业。目前,将其应用于现有场景是一个高度确定的事情,技术的确定性非常高,且用户收益也比较明确。至于商业收益有多大,这仍有待观察。
正如你所说,目前终端应用尚未展现出特别清晰的发展路径。相比之下,服务于现有场景的确定性更高,也更容易落地。对于模型厂商而言,首先做好 2B 业务是比较自然的选择。然而,寻找新的 2C 应用场景则更具不确定性,也要求更高的创新性,这需要更多时间去探索。这是行业的自然规律。
回顾移动互联网早期的历史,以 iPhone 的发布作为标志,移动互联网元年早在 2010 年便已开启。然而,真正大规模增长的应用程序直到 2012 年后才逐渐显现。即便是移动搜索这样的技术,也需要厂商花费大量时间才能将用户需求与技术相结合。因此,我相信这一过程同样需要时间,不会迅速完成。
大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。
读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”
能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。