layoutlmv3训练CDLA数据集

最新推荐文章于 2025-02-22 16:12:21 发布

Funny_AI_LAB

最新推荐文章于 2025-02-22 16:12:21 发布

阅读量2.4k

点赞数 15

分类专栏：计算机视觉文章标签：计算机视觉视觉检测人工智能目标检测

本文链接：https://blog.csdn.net/sexy19910923/article/details/136626314

版权

Microsoft的LayoutLMv3通过统一的文本和图像掩码预训练，提升了文档AI的多模态Transformer表现。它在文本和图像中心任务上均取得先进性能，包括表格理解、收据理解、文档视觉问答和图像分类等。文章还介绍了如何配置环境和使用CDLA数据转换为COCO格式进行模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.LayoutLMv3介绍

LayoutLMv3（文档基础模型）
自监督预训练技术在文档人工智能方面取得了显着的进步。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示，但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度。

在本文中，微软提出LayoutLMv3来通过统一的文本和图像掩码来预训练文档 AI 的多模态 Transformer。此外，LayoutLMv3 还使用单词补丁对齐目标进行了预训练，通过预测文本单词的相应图像补丁是否被屏蔽来学习跨模态对齐。简单的统一架构和训练目标使 LayoutLMv3 成为适用于以文本为中心和以图像为中心的文档 AI 任务的通用预训练模型。实验结果表明，LayoutLMv3 不仅在以文本为中心的任务（包括表单理解、收据理解和文档视觉问答）中实现了最先进的性能，而且在以图像为中心的任务（如文档图像分类和文档布局）中也实现了最先进的性能分析。
在这里插入图片描述

二.环境配置

conda create --name layoutlmv3 python=3.7
conda activate layoutlmv3
git clone https://github.com/microsoft/unilm.git
cd unilm/layoutlmv3
pip install -r requirements.txt
# install pytorch, torchvision refer to https://pytorch.org/get-started/locally/
pip install torch==1.10.0+cu111 torchvision==0.11.1+cu111 -f https://download.pytorch.org/whl/torch_stable.html
# install detectron2 refer to https://detectron2.readthedocs.io/en/latest/tutorials/install.html
python -m pip install detectron2 -f https://dl.fbaipublicfiles.com/detectron2/wheels/cu111/torch1.10/index.html
pip install -e .

参考官网下载预训练：
在这里插入图片描述

三.CDLA数据转成coco格式

CDLA数据集介绍：CDLA数据集
在这里插入图片描述
由于CDLA的数据是由Labeme标注的，先将数据集格式转成coco的：

#!/usr/bin/env python

import argparse
import collections
import datetime
import glob
import json
import os
import os.path as osp
import sys
import uuid

import imgviz
import numpy as np

import labelme

try:
    import pycocotools.mask
except ImportError:
    print("Please install pycocotools:\n\n    pip install pycocotools\n")
    sys.exit(1)


def main():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter
    )
    parser.add_argument("input_dir", help="input annotated directory")
    parser.add_argument("output_dir", help="output dataset directory")
    parser.add_argument("--labels", help="labels file", required=True)
    parser.add_argument(
        "--noviz", help="no visualization", action="store_true"
    )
    args = parser

最低0.47元/天解锁文章