〔探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活〕
一. 端侧小模型最新动态
1.1 SD 3.5 Medium 开源发布
Stable Diffusion 3.5 Medium 拥有 25 亿个参数,能够生成分辨率在 0.25 到 2 兆像素之间的图像。此模型可以在大多数消费级 GPU 上运行,官方信息称“此模型仅需 9.9 GB 的 VRAM(不包括文本编码器)即可发挥全部性能”。下图所示,NVIDIA RTX 3080及以上型号的GPU可以在不损失性能的情况下运行Stable Diffusion 3.5 Medium。甚至更实惠的GPU,如NVIDIA RTX 4060或RTX 3060,也能管理此模型,尽管需要进行某些优化,如量化或顺序卸载。
Blog:https://dataconomy.com/2024/11/01/stable-diffusion-3-5-medium-is-launched/
1.2 Meta 开源 MobileLLM
Meta最近发布了一系列小型语言模型 MobileLLM,包括125M、350M、600M和1B等不同规模的模型检查点。在零样本任务中,MobileLLM比之前同等规模的SOTA模型分别高出了2.7%(125M)和4.3%(350M)。在API调用任务上,MobileLLM甚至能与体型大它好几倍的LLaMA-v2 7B模型一较高下!
开源地址:https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
1.3 Hugging Face 开源 SmolLM2
Hugging Face开源了 SmolLM2 系列模型,包含三个尺寸:135M、360M 和 1.7B。这个开源小模型,采用了高度精选的训练数据,累计训练数据量达到 11T tokens。从测试结果来看,SmolLM2-1.7B在ARC科学推理测试中达到60.5%的准确率,超过了Llama3.2-1B的49.2%;在常识推理任务HellaSwag上,更是以68.7%的成绩领先其他模型。此外,SmolLM2采用了Apache 2.0开源协议,研究团队还承诺将开放所有训练数据集和训练脚本,这对推动小模型发展和落地具有重要意义。
开源地址:https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9
1.4 AMD 开源 OLMo
AMD 发布了 AMD OLMo 1B,超越了 OpenELM、Tiny Llama,在 MT Bench 和 Alpaca Eval 中表现优异,同时采用 Apache 2.0 许可。
开源地址:https://huggingface.co/collections/amd/amd-olmo-6723e7d04a49116d8ec95070
1.5 Xinference v0.16.2 发布
Xinference 是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。本次更新新增魔乐社区(openmind_hub)的支持,且正式支持 Python 3.12。当前支持下载 MiniCPM、internlm2-chat、qwen系列、glm4系列、llama3.1 等模型。
1.6 π0 通用机器人模型发布
Physical Intelligence 公司开发了名为 π0 的通用机器人基础模型。作为一个 3B 参数的大模型,它能够控制机器人,自主执行诸如折叠衣物、清理餐桌和组装盒子等家务,甚至适用于不同种类的机器人。
参考链接:https://www.physicalintelligence.company/blog/pi0
二. 端侧行业动态
2.1 雷鸟创新要让全民用上AR眼镜
10月28日,消费级AR品牌雷鸟创新举行线上新品发布会,雷鸟创新创始人兼CEO李宏伟正式发布了第三代口袋电视「雷鸟Air 3」,售价「1699元」。与此同时,雷鸟创新还带来了全新的雷鸟Air 2三周年冠军纪念版,售价「1399元」。其中,雷鸟Air 3今天开始在各大电商平台预售,11月4日正式开售;雷鸟Air 2三周年冠军纪念版目前已上架各大电商平台,现货开售。
官方新闻:https://mp.weixin.qq.com/s/Vp35oovysyOtBMTPXk_HOw
2.2 闪极科技、LOHO 眼镜、科大讯飞在深圳签署独家战略合作协议
10月28日,LOHO眼镜、闪极科技与科大讯飞在深圳市LOHO眼镜总部签署战略合作协议,致力于以“眼镜+”为基础,打造全球领先的“全时段拍摄+高品质音频+多模态AI”智能眼镜,共创智能眼镜领先品牌,成为全球知名的AI生态入口级硬件。这款全球首发的LOHO智能眼镜以时尚外观和配戴舒适为基础,搭载Android平台、1600万摄像头、3个麦克风,重量小于50g,续航15小时且可脱离手机独立运行。眼镜预计将在今年年底上市。
2.3 苹果发布史上最小电脑!M4 芯片+AI
10月29日,苹果2024款Mac mini正式发布,搭载M4/M4 Pro芯片,内存16GB起步,最高64GB,将于10月31日起接受预购,11月8日起正式发售。
2.4 全国首批人形机器人具身智能标准发布
10月28日下午,在人形机器人及具身智能创新论坛上,国家地方共建人形机器人创新中心联合智元机器人等行业机构,发布了包含《人形机器人分类分级应用指南》《具身智能智能化发展阶段分级指南》在内的全国首批人形机器人具身智能标准。据国地中心方面介绍,《人形机器人分类分级应用指南》定义了人形机器人通用、结构、智能相关的术语名词,从结构外观、移动方式、智能模型等方面进行指导分类,按照具身智能、下肢运动、上肢作业、应用环境等作为分级要素,将人形机器人划分为L1-L4四个技术等级。
2.5 OpenAI 计划自研 AI 芯片
据路透社报道,OpenAI 正在与博通(Broadcom)合作开发其首款定制 AI 推理芯片,旨在处理其大规模的 AI 工作负载,特别是推理任务。为此,OpenAI 已经组建了一支约 20 人的研发团队,包括曾参与谷歌 Tensor 处理器项目的首席工程师在内。消息称博通将会帮助 OpenAI 进行芯片设计,并确保由台积电(TSMC)进行制造,预计 2026 年开始生产。
推荐阅读
社区简介:
《AIGCmagic星球》,五大AIGC方向正式上线!让我们在AIGC时代携手同行!限量活动中!
AI多模态核心架构五部曲:
AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码
AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention
AI多模态模型架构之输出映射器:Output Projector
AI多模态模型架构之模态生成器:Modality Generator
AI多模态实战教程:
AI多模态教程:从0到1搭建VisualGLM图文大模型案例