苹果开源说明了什么？具身智能设备时代要到来了吗？

最新推荐文章于 2025-04-08 14:38:54 发布

Meecreep

最新推荐文章于 2025-04-08 14:38:54 发布

阅读量1.2k

点赞数 16

文章标签：开源 transformer 边缘计算 tensorflow 神经网络语言模型

本文链接：https://blog.csdn.net/Meecreep/article/details/138714018

版权

导语

· 苹果开源了！小参数大模型OpenELM和训练库CoreNet！

· 模型做小做精的趋势，预示着具身智能市场正在被重视，即将起飞

· 数智化升级 = 大模型 + 设备 = 具身智能

· 大模型市场的三个核心问题以及解法

一、行业大事件！苹果大模型开源

近日，苹果在HuggingFace发布了 OpenELM，包括四种变体，参数量分别为 270M、450M、1.1B 和 3B，这是一系列基于公开数据集进行预训练和微调的模型，并提供模型权重、推理代码、训练日志、保存点、预训练设置等完整文档库。同期苹果在GitHub发布了一个深度神经网络训练库CoreNet（前身为CVNets），允许开发者训练各种可用于苹果设备的模型，包括目标分类、目标检测、语义分割等视觉模型，以及LLM、CLIP等基础大模型。目前版本的OpenELM就是通过CoreNet训练迭代了35万次完成的，在128个A100/H100 GPU上，最大的模型训练时长为13天。

值得注意的是，OpenELM的四款模型体量极小，最小2.7亿的参数绝对算是大模型里的“小模型”了（即SLM）。可以看出，苹果该系列的模型，只针对端侧和桌面级的本地部署设计，测试平台也都是家用级的设备，且在常见测试集的跑分并不高，例如在MMLU跑分都低于30分，而微软同级别的的Phi-3-mini 3.8B可达70分左右水平。

二、为什么苹果要开源？

这就引发了值得思考的问题，为什么一直坚持闭源生态的苹果在这个时候选择加入开源社区了呢？

首先，肯定有开源社区先天优势的原因：

1 可以大幅降低成本。开源社区中开发者们贡献的软件代码分支和测试反馈，可以降低苹果在软件开发、试错和维护方面的成本。

2 可以提高可定制性。在开源社区中与开发者们互动的过程中，苹果可以根据自己的需求规划调整技术栈和软件升级迭代方向，挑选重点发展的功能模块，避免不必要的功能浪费，便于拓展软件项目的生态成长。

3 可以提高代码质量。开源了的代码经过众多开发者的审查和测试，往往比闭源软件更加安全和稳定。由于所有源代码、测试反馈记录都是公开的，苹果可以更加方便地查找和修复安全漏洞，提高软件的安全性和稳定性。

4 可以提高创新性。开源环境是鼓励竞争和合作的，任何人都可以参与项目开发，这大大拓宽了创新的来源，可以充分利用全球的智慧和创造力，集思广益，不断推动技术的进步和创新。

其次，以主流手机厂商为例，无论是鸿蒙系还是安卓系，都已经开始全面拥抱AI。

vivo X100系列手机采用联发科天玑9300芯片，已在端侧落地70亿和130亿参数大语言模型，全面开放生成式AI功能，提供包括语义搜索、问答、写作、创图、智慧交互等应用。vivo和联发科之所以能那么快地部署起端侧AI，通义千问等开源大模型功不可没，主导企业采用开放式的软件架构，开源社区在整个研发过程中充分贡献，在新技术新产品的导入过程中，既能增加速度又能提高质量。

最后，也是最重要的一点，就是在AI技术的发展前沿，开源社区的战斗力是苹果追赶AI步伐最快的路径。

回顾过去的2023年里，发布的基础模型里开源模型的占比高达65.7%，我们知道上周Meta刚发布了目前开源模型里最强的Llama3，发布后一周内就出现了多个开源增强的版本，比如LLaVA++就是集成了Phi-3和Llama3，在多模态尤其是视觉语言任务中表现非常出色。

我们已经看到过非常多开源颠覆闭源的例子，例如大神Georgi Gerganov在开源社区发布的llama.cpp和wisper.cpp，就是用纯C的极简代码，打破了英伟达CUDA对AI硬件的垄断，帮助苹果打开了面向AI开发者的大门。我们有理由相信，下一个android依然会是来自开源社区，聪明如苹果一定能明白，如果自己再不放开身段加入开源社区，下一个被颠覆的可能就是自己，强大如苹果也存在分分钟变成诺基亚的可能。

三、大模型开源是一个趋势！

现如今每周都有新的基础模型发布，一方面，如Llama3尚未发布的400B，或阿里已发布的千问110B，是把模型做大做强的方向，另一方面，如微软发布的Phi-3，以及苹果发布的OpenELM，是把模型做小做精的方向。前者，将对OpenAI这样闭源主导的AI头部企业形成挤压，避免过早出现一家独大的技术供应单一、市场垄断局面，也帮助促成更健康有生机的AI行业全面发展。后者，则进一步验证了头部企业正在向着一个统一的方向移动，那就是具身智能时代，这背后的主要原因是具身智能市场实在太大了。

以国内的大模型市场为例，2023年市场规模仅50亿元，甚至比2023年中国AI领域的投融资金额20亿美元低很多。但当大模型与设备相结合，市场容量规模将在数年内轻松冲上万亿级规模。以AI-PC电脑为例，市场分析机构Canalys最新预测数据，2024年AI-PC的全球渗透率就将达到18%，出货量超过4800万台，2025年渗透率将达到40%，出货量超过1亿台，并且相对传统PC增加10-15%的溢价。仅AI-PC一项，五年内市场规模就将达到2000亿美元以上。又比如AI手机市场，每年十几亿台出货量，大模型渗透率将比AI-PC更高。

四、模型开源加速具身智能设备时代

具身智能市场除了传统硬件品类，也将激活很多新兴市场。比如Living AI公司出品的AIBI和EMO桌面宠物机器人，就整合了OpenAI等多个AI公司的大模型方案，支持人脸识别和视觉分析，支持ChatGPT语音聊天。

又比如已开售的WEHEAD，是一款桌面陪伴型的互动机器人产品，虽然初代产品有些无法形容，但已经让我们看到一些具身智能产品的探索方向。

可以预见，“大模型+设备”的具身智能市场，将是兵家必争之地，机遇与挑战并存，尤其是机遇这一点，在经济下行的低谷期，显得更加难能可贵。信息化浪潮已经到了数智化升级为主要动力的阶段，而数智化升级最广阔前景的就是“大模型+设备”的具身智能市场。

五、具身智能时代第二大难点！

模型成本下降的仍不足以推动具身智能设备时代的正在落地，普及到千家万户。

在近日2024中关村论坛年会未来人工智能先锋论坛上，蚂蚁集团首席技术官何征宇表示，AI正在推动产业革命，但这一技术发展到“人人可得”、彻底改变人类生活还有一定距离。从产业角度看，需要解决三个最核心的问题：一是可靠性，当今以大模型为主的人工智能系统还没有实现百分百的可靠，还未获得公众百分百的信任。二是经济性，人工智能作为创新技术要想可持续发展必须是普惠的。三是易用性，像照相技术一样，只有当傻瓜相机发明之后，拍照才普及到千家万户。

为保证大模型能以最低成本部署到设备，还需要在计算框架上做到降成！

上海云锦微科技有限公司首席科学家周昌博士早在2022年刚开始启动vt-transformer计算框架时，就曾预判“现如今市场上所有的软硬一体化产品，都将因为AI大模型技术，升级进化为具身智能产品”，如今看来，一语中的，我们将不断看到各种“大模型+设备”的具身智能产品被发布。无论是工业硬件、家用硬件、企业硬件，都将因为大模型技术，产生无数全新的可能性。vt-transformer的设计初衷，也和Georgi Gerganov一样，是通过纯C的极简架构和代码，实现AI基础设施的技术破壁，帮助激活市场。

这一计算框架旨在解决提及的三大核心问题：

1 可靠性，通过开源社区来解。和当年的Linux、Android一样，也和苹果选择开源一样，靠开发者们的集体监督测试反馈，来提高技术可靠性。

2 经济性，通过小型化计算框架来解。AI普惠势必会与我国制造业根基，以及国产芯片逆袭捆绑在一起。而具身智能市场发力的核心课题，就是把多种多样的大模型压缩到多种多样的设备里。云锦OS可以很好的连接起模型和芯片，帮助大幅压缩大模型进入设备的成本。

3 易用性，通过智能体应用来解。云锦微已经在多个领域发布了适应场景的智能体应用，比如安防智能体配备了算法训练平台VT-Station和设备管理软件VT-ClipView，工业智能体配备了质检平台VT-Vision，企业智能体配备了大语言模型应用ChatwithVTX。这些开箱即用的应用将有效帮助大模型技术在各行业场景的设备侧落地，激活市场。