#今日论文推荐# CVPR 2022 | 关注文本阅读顺序，蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM

最新推荐文章于 2024-05-17 10:32:11 发布

wwwsxn

最新推荐文章于 2024-05-17 10:32:11 发布

阅读量199

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/628c4db07cb68b460fc03de7?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# CVPR 2022 | 关注文本阅读顺序，蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM

来自蚂蚁集团 - 大安全 - 机器智能和上海交通大学的研究者提出了一种多模态文档理解新模型 XYLayoutLM。
近年来，多模态文档理解在各类场景得到了广泛的应用。它要求我们结合图像，文本和布局信息对扫描件或者 pdf 文件进行理解。除此之外，多模态的模型还被应用于文档自动处理，文本关系提取和网页分类定性等等一系列应用。然而，需要强调的是，这个问题并不简单。这是因为表单的结构复杂多变，布局信息难以提取。
目前学术界中，针对多模态文档理解的模型方案，通常都需要先经过对图像进行 ocr 扫描，解析出图中的文本和文本框位置，再将得到的文本和文本框坐标，按照 ocr 解析出的默认顺序，将文本框及其对应的内容输入给模型。然而，和普通的文档图像不同，诸如票据、表单、卡证等数据，其文本位置通常无法按照传统的 “从左至右“或者” 从上到下“进行简单排序，而是存在丰富的层次结构。一个合理的文本框阅读顺序（proper reading order），可以帮助模型更好得理解图像讯息。
另一个局限性是许多现有的模型使用了长度固定的位置编码（position embeddings），这会导致模型在训练完成后无法处理更长的输入序列。当然我们可以强行使用插值算法补全缺失的部分，但还是会影响文档理解的结果。
针对上述两个缺陷，来自蚂蚁集团机器智能团队和上海交通大学的研究者做了如下两点改进，并提出了多模态文档理解模型 XYLayoutLM：
1. 我们提出一个创新的 Augmented XY Cut 算法作为 augmentation 策略来对文本框进行排序生成合理的阅读顺序，从而改进模型性能。
2. 基于空洞卷积的思想，我们提出了可以处理变长输入序列的空洞条件位置编码 DCPE 生成模块。
XYLayoutLM 模型通过获得合理的文本阅读顺序和提出空洞条件位置编码，取得了在 FUNSD 和 XFUN 文档理解数据集上非常具有竞争力的结果。该论文已被 CVPR 2022 录用。

论文题目：XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding
详细解读：https://www.aminer.cn/research_report/628c4db07cb68b460fc03de7?download=falsehttps://www.aminer.cn/research_report/628c4db07cb68b460fc03de7?download=false
AMiner链接：https://www.aminer.cn/?f=cs