DiT: Self-supervised Pre-training for Document Image Transformer论文阅读笔记

WF_海蒂拉玛

已于 2024-01-24 16:23:44 修改

阅读量791

点赞数 12

文章标签： transformer 论文阅读笔记

于 2024-01-24 16:17:37 首次发布

本文链接：https://blog.csdn.net/qq_39656852/article/details/135823476

版权

DiT，一种用于通用文档 AI 任务的自监督预训练文档图像的 Transformer 模型，该模型不依赖于任何人工标记的文档图像。创新点：1.本身的在自然场景的图片上训练得到的DALL-E tokenizer不适用于文本，因此在文档图片数据集上重新训练了DALL-E tokenizer，使其更适合针对文档图片获取到对应的Tokens。2.设计MIM预训练目标，让模型根据上下文预测出被[MASK]掉的图像块（注意是图像块，而不是像素）

（1）预训练

与自然语言中的文本Token一样，图像可以表示为图像tokenizer获得的一系列离散Tokens。受BEiT模型的启发，该文采用了一种类似使用文档图像的预训练策略。首先将输入文本图像调整（Resize）为 224 × 224，然后将图像分割成一系列 16 × 16 大小的patchs，这些patchs用作Document Image Transformer (DiT Encoder)的输入。

与DALL-E中视觉Token来自离散VAE的BEiT模型不同，该文使用了大规模文档图像去重新训练离散VAE (dVAE)模型，使生成的视觉Token与文档AI任务更相关。BEiT使用来自DALLE的离散变分自动编码器(dVAE)作为图像标记器，它在包括400万张图像在内的大型数据集上进行训练。然而，自然图像和文档图像之间存在域不匹配，这使得DALL-E tokenizer不适合文档图像。因此，为了获得更好的文档图像域离散视觉Token，该文在包含 4200 万个文档图像的 IIT-CDIP数据集上训练 dVAE。

为了有效地预训练 DiT 模型，在给定一系列图像patchs的情况下，该文使用特殊标记 [MASK] 随机屏蔽输入序列。DiT 编码器通过带有添加位置嵌入的线性投影嵌入掩码Token序列，然后将其与一堆 Transformer 块进行上下文化。该模型需要从掩码位置预测视觉标记的索引。掩模图像建模任务不是预测原始像素，而是要求模型预测图像标记器获得的离散视觉标记。

（2）微调

该文在四个文档 AI 基准上微调预训练号的模型，包括用于文档图像分类的 RVL-CDIP 数据集、用于文档布局分析的 PubLayNet 数据集、用于表检测的 ICDAR 2019 cTDaR 数据集和用于文本检测的 FUNSD 数据集。这些基准数据集可以形式化为两个常见任务：图像分类和目标检测。

（3）微调结果

在文档图像分类数据集上的对比结果：

文档布局分析上的结果：

这里我与LayoutLMV3的实验结果作了对比如下：

在表格检测上的准确率：

文本检测准确率：

WF_海蒂拉玛

关注

12
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
DiT: Self-supervised Pre-training for Document Image Transformer论文阅读笔记

DiT，一种用于通用文档 AI 任务的文档图像的 Transformer 模型，该模型不依赖于任何人工标记的文档图像。创新点：①.本身的在自然场景的图片上训练得到的DALL-E tokenizer不适用于文本，因此在文档图片数据集上重新训练了DALL-E tokenizer，使其更适合针对文档图片获取到对应的Tokens②.设计MIM预训练目标，让模型根据上下文预测出被[MASK]掉的图像块（注意是图像块，而不是像素）
复制链接

扫一扫