文档AI
文章平均质量分 92
文档智能理解---包括文档智能理解论文分享,代码复现
菜鸡不叫
研究生阶段学习人工智能,写一些自己的理解,希望可以帮助到大家
展开
-
【LayoutLLM】文档预训练模型+LLM > MLLM
提出 LayoutLLM ,使用 document pretrained models提出了三组不同层次的预训练任务:文档级、区域级和分段级,学习从全局到局部的文档布局。提出 LayoutCoT ,保证对于布局信息的充分使用。原创 2024-05-10 11:20:48 · 1155 阅读 · 0 评论 -
【 LayoutLM】 LayoutLMv3---统一的文本和图像掩码来预训练文档 AI 的多模态 Transformer
从而缓解了这个问题。比较模型 #3 和模型 #2 的结果,MIM 目标有利于 CORD 和 RVL-CDIP。由于简单地使用线性图像嵌入改进了 FUNSD,因此 MIM 不会进一步对 FUNSD 做出贡献。通过在训练中结合 MIM 目标,在微调 PubLayNet 时损失会收敛,如图 4 所示,并且获得了理想的 mAP 分数。结果表明,MIM 可以帮助规范训练。因此,MIM 对于 PubLayNet 上的文档布局分析等视觉任务至关重要。原创 2024-04-02 22:43:14 · 2624 阅读 · 1 评论 -
【LayoutLM】LayoutLMv2---预训练阶段集成文档文本、布局和视觉信息
提出了一种多模态 Transformer 模型,在预训练阶段集成文档文本、布局和视觉信息,在单个框架中学习端到端的跨模态交互。同时,Transformer 架构中集成了空间感知的自注意力机制。LayoutLMv2 的两个新训练目标。第一个是提出的文本图像对齐策略,它将文本行和相应的图像区域对齐。第二种是视觉语言预训练模型中流行的文本图像匹配策略。原创 2024-04-02 22:04:43 · 1328 阅读 · 0 评论 -
【LayoutLM】LayoutLMv1---基于大规模未标记扫描文档图像进行自监督训练
• 首次在单一框架中对扫描文档图像的文本和布局信息进行预训练,利用图像特征来实现新的最先进的结果。• LayoutLM 使用屏蔽视觉语言模型和多标签文档分类作为训练目标,在文档图像理解任务中显着优于几种 SOTA 预训练模型。原创 2024-04-02 20:56:23 · 896 阅读 · 0 评论