DiT: Self-supervised Pre-training for Document Image Transformer论文阅读笔记

DiT,一种用于通用文档 AI 任务的自监督预训练文档图像的 Transformer 模型,该模型不依赖于任何人工标记的文档图像。创新点:1.本身的在自然场景的图片上训练得到的DALL-E tokenizer不适用于文本,因此在文档图片数据集上重新训练了DALL-E tokenizer,使其更适合针对文档图片获取到对应的Tokens。2.设计MIM预训练目标,让模型根据上下文预测出被[MASK]掉的图像块(注意是图像块,而不是像素)

(1)预训练

        与自然语言中的文本Token一样,图像可以表示为图像tokenizer获得的一系列离散Tokens。受BEiT模型的启发,该文采用了一种类似使用文档图像的预训练策略。首先将输入文本图像调整(Resize)为 224 × 224,然后将图像分割成一系列 16 × 16 大小的patchs,这些patchs用作Document Image Transformer (DiT Encoder)的输入。

        与DALL-E中视觉Token来自离散VAE的BEiT模型不同,该文使用了大规模文档图像去重新训练离散VAE (dVAE)模型,使生成的视觉Token与文档AI任务更相关。BEiT使用来自DALLE的离散变分自动编码器(dVAE)作为图像标记器,它在包括400万张图像在内的大型数据集上进行训练。然而,自然图像和文档图像之间存在域不匹配,这使得DALL-E tokenizer不适合文档图像因此,为了获得更好的文档图像域离散视觉Token,该文在包含 4200 万个文档图像的 IIT-CDIP数据集上训练 dVAE。

        为了有效地预训练 DiT 模型,在给定一系列图像patchs的情况下,该文使用特殊标记 [MASK] 随机屏蔽输入序列。DiT 编码器通过带有添加位置嵌入的线性投影嵌入掩码Token序列,然后将其与一堆 Transformer 块进行上下文化。该模型需要从掩码位置预测视觉标记的索引。掩模图像建模任务不是预测原始像素,而是要求模型预测图像标记器获得的离散视觉标记。

(2)微调

        该文在四个文档 AI 基准上微调预训练号的模型,包括用于文档图像分类的 RVL-CDIP 数据集、用于文档布局分析的 PubLayNet 数据集、用于表检测的 ICDAR 2019 cTDaR 数据集和用于文本检测的 FUNSD 数据集。这些基准数据集可以形式化为两个常见任务:图像分类和目标检测。

(3)微调结果

        在文档图像分类数据集上的对比结果:

        文档布局分析上的结果:

这里我与LayoutLMV3的实验结果作了对比如下: 

在表格检测上的准确率:

文本检测准确率:

  • 12
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值