AI多模态技术趋势分析：端侧 AI 的最新进展、创新应用及行业洞察

本文链接：https://blog.csdn.net/AIGCmagic/article/details/143661718

〔探索AI的无限可能，微信关注“AIGCmagic”公众号，让AIGC科技点亮生活〕

一. 端侧小模型最新动态

1.1 SD 3.5 Medium 开源发布

Stable Diffusion 3.5 Medium 拥有 25 亿个参数，能够生成分辨率在 0.25 到 2 兆像素之间的图像。此模型可以在大多数消费级 GPU 上运行，官方信息称“此模型仅需 9.9 GB 的 VRAM（不包括文本编码器）即可发挥全部性能”。下图所示，NVIDIA RTX 3080及以上型号的GPU可以在不损失性能的情况下运行Stable Diffusion 3.5 Medium。甚至更实惠的GPU，如NVIDIA RTX 4060或RTX 3060，也能管理此模型，尽管需要进行某些优化，如量化或顺序卸载。

Blog：https://dataconomy.com/2024/11/01/stable-diffusion-3-5-medium-is-launched/

1.2 Meta 开源 MobileLLM

Meta最近发布了一系列小型语言模型 MobileLLM，包括125M、350M、600M和1B等不同规模的模型检查点。在零样本任务中，MobileLLM比之前同等规模的SOTA模型分别高出了2.7%（125M）和4.3%（350M）。在API调用任务上，MobileLLM甚至能与体型大它好几倍的LLaMA-v2 7B模型一较高下！

开源地址：https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95

1.3 Hugging Face 开源 SmolLM2

Hugging Face开源了 SmolLM2 系列模型，包含三个尺寸：135M、360M 和 1.7B。这个开源小模型，采用了高度精选的训练数据，累计训练数据量达到 11T tokens。从测试结果来看，SmolLM2-1.7B在ARC科学推理测试中达到60.5%的准确率，超过了Llama3.2-1B的49.2%；在常识推理任务HellaSwag上，更是以68.7%的成绩领先其他模型。此外，SmolLM2采用了Apache 2.0开源协议，研究团队还承诺将开放所有训练数据集和训练脚本，这对推动小模型发展和落地具有重要意义。

开源地址：https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

1.4 AMD 开源 OLMo

AMD 发布了 AMD OLMo 1B，超越了 OpenELM、Tiny Llama，在 MT Bench 和 Alpaca Eval 中表现优异，同时采用 Apache 2.0 许可。

开源地址：https://huggingface.co/collections/amd/amd-olmo-6723e7d04a49116d8ec95070

1.5 Xinference v0.16.2 发布

Xinference 是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。本次更新新增魔乐社区（openmind_hub)的支持，且正式支持 Python 3.12。当前支持下载 MiniCPM、internlm2-chat、qwen系列、glm4系列、llama3.1 等模型。

1.6 π0 通用机器人模型发布

Physical Intelligence 公司开发了名为 π0 的通用机器人基础模型。作为一个 3B 参数的大模型，它能够控制机器人，自主执行诸如折叠衣物、清理餐桌和组装盒子等家务，甚至适用于不同种类的机器人。

参考链接：https://www.physicalintelligence.company/blog/pi0

二. 端侧行业动态

2.1 雷鸟创新要让全民用上AR眼镜

10月28日，消费级AR品牌雷鸟创新举行线上新品发布会，雷鸟创新创始人兼CEO李宏伟正式发布了第三代口袋电视「雷鸟Air 3」，售价「1699元」。与此同时，雷鸟创新还带来了全新的雷鸟Air 2三周年冠军纪念版，售价「1399元」。其中，雷鸟Air 3今天开始在各大电商平台预售，11月4日正式开售；雷鸟Air 2三周年冠军纪念版目前已上架各大电商平台，现货开售。

官方新闻：https://mp.weixin.qq.com/s/Vp35oovysyOtBMTPXk_HOw

2.2 闪极科技、LOHO 眼镜、科大讯飞在深圳签署独家战略合作协议

10月28日，LOHO眼镜、闪极科技与科大讯飞在深圳市LOHO眼镜总部签署战略合作协议，致力于以“眼镜+”为基础，打造全球领先的“全时段拍摄+高品质音频+多模态AI”智能眼镜，共创智能眼镜领先品牌，成为全球知名的AI生态入口级硬件。这款全球首发的LOHO智能眼镜以时尚外观和配戴舒适为基础，搭载Android平台、1600万摄像头、3个麦克风，重量小于50g，续航15小时且可脱离手机独立运行。眼镜预计将在今年年底上市。

2.3 苹果发布史上最小电脑！M4 芯片+AI

10月29日，苹果2024款Mac mini正式发布，搭载M4/M4 Pro芯片，内存16GB起步，最高64GB，将于10月31日起接受预购，11月8日起正式发售。

2.4 全国首批人形机器人具身智能标准发布

10月28日下午，在人形机器人及具身智能创新论坛上，国家地方共建人形机器人创新中心联合智元机器人等行业机构，发布了包含《人形机器人分类分级应用指南》《具身智能智能化发展阶段分级指南》在内的全国首批人形机器人具身智能标准。据国地中心方面介绍，《人形机器人分类分级应用指南》定义了人形机器人通用、结构、智能相关的术语名词，从结构外观、移动方式、智能模型等方面进行指导分类，按照具身智能、下肢运动、上肢作业、应用环境等作为分级要素，将人形机器人划分为L1-L4四个技术等级。

2.5 OpenAI 计划自研 AI 芯片

据路透社报道，OpenAI 正在与博通（Broadcom）合作开发其首款定制 AI 推理芯片，旨在处理其大规模的 AI 工作负载，特别是推理任务。为此，OpenAI 已经组建了一支约 20 人的研发团队，包括曾参与谷歌 Tensor 处理器项目的首席工程师在内。消息称博通将会帮助 OpenAI 进行芯片设计，并确保由台积电（TSMC）进行制造，预计 2026 年开始生产。