与layoutlmv2有相同类似的体系结构,使用人工注释器来标记多语言表单理解数据集,该数据集包含7种语言,包括中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语,并引入了一个名为XFUND
1.模型结构
text, layout, image三种信息作为输入, encoded with text embedding, layout embedding, visual embedding layers
空间自注意力
2. Pre-training Data
LayoutXLM模型使用53种语言的文档进行预训练,