Meta 发布了 Llama 3 模型的新版本;这次,有四种模型用于不同的目的:两个多模态模型,Llama 3.2 11B 和 90B,以及两个用于边缘设备的小型语言模型,1B 和 3B。
这些是 Meta AI 的首批多模态模型,基准测试表明它们是小型和中型专有替代品的强大竞争对手。我不太喜欢 LLM 基准测试;它们往往具有误导性,可能无法代表现实世界的表现。但是,你可以在官方博客文章中查看结果。
我想在我每天经常遇到的最常见的视觉任务上测试该模型,并将其性能与我的首选 GPT-4o 进行比较。
我关注的任务包括:
- 基本图像理解
- 医疗处方和报告分析
- 从图像中提取文本
- 财务图表解释
NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 -