IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI

IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI

原创 CourseAI CourseAI 2025年03月22日 19:52 湖北

  • SmolDocling基于 Hugging Face SmolVLM-256M 构建,该模型在参数数量上比同类文档理解任务调整的视觉-语言模型小 5 到 10 倍。

  • 视觉骨干采用 SigLIP base patch-16/512(93M)其训练数据经过重新平衡,以强调文档理解(41%)和图像描述(14%)。

  • 通过增加像素到标记的比率至每标记 4096 像素,并引入子图像分隔符的特殊标记,提高了标记化效率。

  • 语言骨干采用轻量级的 SmolLM-2 家族(135M),并采用激进的像素洗牌方法,将每个 512×512 的图像块压缩为 64 个视觉标记。

  • 该模型通过生成一种名为 DocTags 的新通用标记格式,全面处理整页文档,捕捉页面元素的全部上下文及其位置信息。

  • SmolDocling 在多种文档类型(包括商业文件、学术论文、技术报告、专利和表单等)中表现出色,能够正确复现代码列表、表格、公式、图表、列表等元素。

  • 针对图表、表格、公式和代码识别的新型公开数据集。

图片

图片

SmolDocling架构 

  • 输入图像编码:输入的文档页面图像首先通过视觉编码器进行编码,然后通过投影和池化进行重塑。

  • 标记化和嵌入:将投影后的嵌入与用户提示的文本嵌入进行拼接,可能还会进行交错处理。

  • 自回归预测ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值