在刚刚结束的Meta开发者大会上,Llama 3.2惊艳亮相。此次,它不仅拥有多模态能力,还与Arm等公司合作,推出了专门针对高通、联发科硬件优化的“移动”版本。
NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割
具体来说,Meta发布了Llama 3.2的四个模型:
- 110亿和900亿参数的多模态版本
- 10亿和30亿参数的轻量级纯文本模型
根据官方数据,Llama 3.2 11B和90B已经展现出超越同等规模闭源模型的性能。
尤其是在图像理解任务上,Llama 3.2 11B的表现优于Claude 3 Haiku,90B版本甚至可以与GPT-4o-mini相媲美。
目前,Llama 3.2 的两个最大模型 11B 和 90B 支持图像推理,包括文档级图表理解、图像描述和视觉定位任务,例如基于自然语言描述精确定位图像中的对象。
例如,用户可以问“去年哪个月的销售额最高?”,Llama 3.2 可以通过对现有图表进行推理来快速给出答案。
轻量级 1B 和 3B 版本是纯文本模型,但也拥有多语言文本生成和工具调用功能。Meta 表示,这些模型使开发人员能够构建个性化的设备上通用应用程序——这些应用程序提供了强大的隐私保护,因为数据不需要离开设备。
在本地运行这些模型有两个主要优点:
- 提示和响应可以即时完成,因为处理是在本地完成的。