文档版面分析数据集整理

版面分析数据集

这里整理了常用版面分析数据集,持续更新中:

  • publaynet数据集
  • CDLA数据集
  • TableBank数据集
  • D4LA 数据集
  • DocLayNet文档布局分割数据集
  • M6Doc数据集

版面分析数据集多为目标检测数据集,除了开源数据,用户还可使用合成工具自行合成,如labelme等。

1、publaynet数据集

  • 数据来源https://github.com/ibm-aur-nlp/PubLayNet
  • 数据简介:PubLayNet是文档图像版面分析的大型数据集,其布局用多边形边框分割标注。文档的来源是PubMed Central Open Access子集(商业用途集合),通过匹配PubMed Central Open Access子集中的文章的PDF格式和XML格式,自动生成注释,包含Text、Title、Tale、Figure、List,共5个类别,数据集中包含335,703张训练集、11,245张验证集和11,405张测试集。
    在这里插入图片描述
  • 说明:使用该数据集时,需要遵守CDLA-Permissive协议。

2、CDLA数据集

  • 数据来源https://github.com/buptlihang/CDLA
  • 数据简介:CDLA据集的训练集合中包含5000张图像,验证集合中包含1000张图像。总共包含10个类别,分别是: Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation。部分图像以及标注框可视化如下所示。
    在这里插入图片描述
  • 说明:基于PaddleDetection套件,在该数据集上训练目标检测模型时,在转换label时,需要将label.txt中的__ignore___background_去除。

3、TableBank数据集

  • 数据来源:https://doc-analysis.github.io/tablebank-page/index.html
  • 数据简介:TableBank数据集包含Latex(训练集187199张,验证集7265张,测试集5719张)与Word(训练集73383张,验证集2735张,测试集2281张)两种类别的文档。仅包含Table 1个类别。部分图像以及标注框可视化如下所示。
    在这里插入图片描述
  • 说明:使用该数据集时,需要遵守Apache-2.0协议。

4、D4LA 数据集

数据来源https://modelscope.cn/datasets/iic/D4LA/summary
数据介绍:D4LA是面向文档版面分析的数据集。包含12类文档工27类文档版面类型,详细如下:在这里插入图片描述

5、DocLayNet文档布局分割数据集

数据来源https://github.com/DS4SD/DocLayNet
数据介绍:DocLayNet 使用边界框为来自 6 个文档类别的 80863 个独特页面上的 11 个不同类标签提供逐页布局分割的基本事实。与 PubLayNet 或 DocBank 等相关工作相比,它提供了几个独特的功能:
人工注释:DocLayNet 由训练有素的专家手工注释,通过对每个页面布局的人工识别和解释,提供布局分割的黄金标准
布局变化大:DocLayNet 包括来自金融、科学、专利、投标、法律文本和手册等多种公共来源的多样化且复杂的布局
详细标签集:DocLayNet 定义了 11 个类标签,以高度详细地区分布局特征。
冗余注释:DocLayNet 中的一小部分页面带有双重或三重注释,允许估计注释不确定性以及使用 ML 模型可实现的预测准确性的上限
预定义的训练集、测试集和验证集:DocLayNet 为每个集提供固定集,以确保类标签的比例表示,并避免在集合中泄漏独特的布局样式。
在这里插入图片描述

6、M6Doc数据集

数据来源https://github.com/HCIILAB/M6Doc
数据介绍:数据集现已由华南理工大学深度学习与视觉计算实验室发布,数据集总共包含9,080张现代文档图像,分为七个子集,即科学文章(11%)、教科书(23%)、试卷(22%)、杂志(22%)、报纸(11%)、笔记(5.5%)和书籍(5.5%)(根据内容和布局)。它包含三种格式:PDF(64%)、拍照文档(5%)和扫描文档(31%)。该数据集总共包含 237,116 个带注释的实例。
在这里插入图片描述

  • 23
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
火车票版面分析是一个比较常见的数据分析任务,很多人会使用Python来处理数据。在Python中,可以使用一些库来完成火车票版面分析,比如pandas、numpy、matplotlib等。 首先,我们需要读取相关的数据。如果数据是以文本文件的形式存在,我们可以使用pandas中的read_csv()函数来读取数据。读取好数据后,我们可以使用pandas中的head()函数来预览数据的前几行,查看数据的格式和内容是否符合要求。 接下来,我们可以对数据进行一些基本的统计分析,比如统计一下不同车次的出现次数、不同日期的车票销售数据等。这可以通过使用pandas中的groupby()函数来实现。例如,可以通过下面的代码来统计某段时间内不同车次的售票数量: ```python import pandas as pd data = pd.read_csv('data.csv') result = data.groupby('train_number').sum()['tickets'] ``` 在数据分析结束后,我们还可以使用matplotlib库来绘制可视化图表,直观地展示统计结果。例如,下面的代码可以绘制出某段时间内各车站的售票数量: ```python import matplotlib.pyplot as plt data = pd.read_csv('data.csv') result = data.groupby('station_name').sum()['tickets'] plt.bar(result.index, result.values) plt.show() ``` 需要注意的是,在数据分析时,我们需要确保数据的准确性和完整性,避免因为数据缺失或错误而导致分析结果的不准确。同时,在使用Python进行数据分析时,我们还需要提高自己的编程能力和数据分析能力,以便更好地处理和分析数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值