IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI
原创 CourseAI CourseAI 2025年03月22日 19:52 湖北
-
SmolDocling基于 Hugging Face 的 SmolVLM-256M 构建,该模型在参数数量上比同类文档理解任务调整的视觉-语言模型小 5 到 10 倍。
-
视觉骨干采用 SigLIP base patch-16/512(93M)其训练数据经过重新平衡,以强调文档理解(41%)和图像描述(14%)。
-
通过增加像素到标记的比率至每标记 4096 像素,并引入子图像分隔符的特殊标记,提高了标记化效率。
-
语言骨干采用轻量级的 SmolLM-2 家族(135M),并采用激进的像素洗牌方法,将每个 512×512 的图像块压缩为 64 个视觉标记。
-
该模型通过生成一种名为 DocTags 的新通用标记格式,全面处理整页文档,捕捉页面元素的全部上下文及其位置信息。
-
SmolDocling 在多种文档类型(包括商业文件、学术论文、技术报告、专利和表单等)中表现出色,能够正确复现代码列表、表格、公式、图表、列表等元素。
-
针对图表、表格、公式和代码识别的新型公开数据集。
SmolDocling架构
-
输入图像编码:输入的文档页面图像首先通过视觉编码器进行编码,然后通过投影和池化进行重塑。
-
标记化和嵌入:将投影后的嵌入与用户提示的文本嵌入进行拼接,可能还会进行交错处理。
-
自回归预测ÿ