文本图像数据集合、打标工具

最新推荐文章于 2025-04-18 15:33:36 发布

Mr_不想起床

最新推荐文章于 2025-04-18 15:33:36 发布

阅读量5.6k

点赞数 1

分类专栏： NLP 深度学习

原文链接：https://blog.csdn.net/xiaomu_347/article/details/83744828

版权

深度学习同时被 2 个专栏收录

52 篇文章

订阅专栏

NLP

31 篇文章

订阅专栏

集大家之所长汇集于此，希望对有需要的你能有所帮助。

一、打标签工具

（1）labelimg/labelme

这两款工具简便易行，前者主要用于对目标进行大致的标定，用于常见的框选标定，后者主要用于较为细致的轮廓标定，多用于mask rcnn等。安装也是很方便的，直接在终端下用pip install labelimg即可(至于labelme，需要先安装pyqt,所以先pip install python-qt5，然后再pip install labelme)。其使用界面如下：

（2）NLP标注工具BRAT

BRAT是一个基于web的文本标注工具，主要用于对文本的结构化标注，用BRAT生成的标注结果能够把无结构化的原始文本结构化，供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。其使用教程可参考https://blog.csdn.net/tcx1992/article/details/80580089。标注结果示例如下：

（3）视频标注工具

CDVA（compact descriptor for video analysis），主要是基于CDVS中的紧凑视觉描述子来做视频分析，之前是紧凑视觉描述子主要应用在图像检索领域。需要制作新的数据集，对视频帧进行标注，所以根据网上一个博主的标注工具进行了一定的修改，实现的功能是在每一帧中将需要标注的区域用鼠标选取4个点，顺序是顺时针。因为四边形的范围更广，之前的一些人直接标注了矩形，但是在一些仿射变换中，往往矩形的定位效果不好，矩形定位应该比较适合于人脸定位和行人定位之中。其参考教程：

http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html。

Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频，支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。除此之外，其还有很多实用的特性：
1.简洁使用的GUI界面，支持多种快捷键操作
2.基于opencv的tracking，这样就可以抽样的标注，减少工作量
具体使用时，可以设定要标注的物体label，比如：水果，人，车，等等。然后指派任务给到众包平台（也可是自己的数据工程师）。现阶段支持的标注样式是框（box）。一个示例，下图标注了NBA直播比赛中的运动员 .

参考链接：http://web.mit.edu/vondrick/vatic/

（4）其他标注工具

现在随着大家不断的涌入机器学习这块，标签工具的开发层出不穷，大家可以慢慢探索，像yolo_mark、BBox-Label-Tool等工具

在这里就不一一展开了。当然如果你的数据量够大，你还可以尝试一下众包，国内外有专门做这种标注业务的公司或网站，例如敲宝网、小鱼儿网、数据堂等。

二、常见的数据集

一部分来源：深度学习视觉领域常用数据集汇总

1、LSUN：用于场景理解和多任务辅助（房间布局估计，显着性预测等）。

有：Bedroom
地址：http://lsun.cs.princeton.edu/2016/

2、行人检测DataSets
（1）.基于背景建模：利用背景建模方法，提取出前景运动的目标，在目标区域内进行特征提取，然后利用分类器进行分类，判断是否包含行人；
（2）.基于统计学习的方法：这也是目前行人检测最常用的方法，根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。

Caltech行人数据库：http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒。标注了约250,000帧（约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10，其中set00~set05为训练集，set06~set10为测试集（标注信息尚未公开）。性能评估方法有以下三种：（1）用外部数据进行训练，在set06~set10进行测试；（2）6-fold交叉验证，选择其中的5个做训练，另外一个做测试，调整参数，最后给出训练集上的性能；（3）用set00~set05训练，set06~set10做测试。由于测试集的标注信息没有公开，需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试，将结果保存在txt文档中（文件的命名方式为I00029.txt I00059.txt ……），每个txt文件中的每行表示检测到一个行人，格式为“[left, top,width, height, score]”。如果没有检测到任何行人，则txt文档为空。该数据库还提供了相应的Matlab工具包，包括视频标注信息的读取、画ROC（Receiver Operatingcharacteristic Curve）曲线图和非极大值抑制等工具。

其他数据集可参考：行人检测：http://www.52ml.net/17004.html

3、人脸数据库UMDFaces等
（1）UMDFaces
http://www.umdfaces.io/
不仅有人脸的目标检测数据，还有关键点的数据，非常适合做训练。
就是比较大，总共有三个文件，一共8000+个类别，总共36W张人脸图片，全都是经过标注的样本，标注信息保存在csv文件中，除了人脸的box，还有人脸特征点的方位信息，强力推荐！

（2）人脸识别数据库
1. 李子青组的 CASIA-WebFace(50万，1万个人). 需申请.Center for Biometrics and Security Research
2. 华盛顿大学百万人脸MegaFace数据集. 邮件申请, 是一个60G的压缩文件. MegaFace
3. 南洋理工 WLFDB. (70万+,6,025). 需申请. WLFDB : Weakly Labeled Faces Database
4. 微软的MSRA-CFW ( 202792 张, 1583人). 可以直接通过OneDrive下载.MSRA-CFW: Data Set of Celebrity Faces on the Web
5. 汤晓欧实验室的CelebA(20万+), 标注信息丰富. 现在可以直接从百度网盘下载 Large-scale CelebFaces Attributes (CelebA) Dataset
6. FaceScrub. 提供图片下载链接（100,100张，530人）. vintage – resources

链接：https://www.zhihu.com/question/33505655/answer/67492825

4、搜狗实验室数据集：
http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别，总数高达2,836,535张图片。对于每张图片，数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

格式说明：
共包括三个文件：Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存储图片的相关元数据；Original_Pic中存储图片的原图；Evaluation_Data是识图搜索结果的人工标注集合。
Meta_Data文件包含所有图片的相关元数据，格式如下：
<PIC>
<PIC_URL>图片在互联网中的URL地址</PIC_URL>
<PAGE_URL>图片所在网页的URL地址</PAGE_URL>
<ALT_TEXT>图片的替换文字</ALT_TEXT>
<ANCHOR_TEXT>以图片为目标的超链接的显示文本</ANCHOR_TEXT>
<SUR_TEXT1>页面中提取的图片上方的文本</SUR_TEXT1>
<SUR_TEXT2>页面中提取的图片下方的文本</SUR_TEXT2>
<PAGE_TITLE>图片所在网页的标题</PAGE_TITLE>
<CONTENT_TITLE>图片所在网页的正文标题</ CONTENT_TITLE>
<WIDTH>图片的宽度</WIDTH>
<HEIGHT>图片的高度</HEIGHT>
<ORIGINAL_PIC_NAME>图片在Original_Pic下的文件名</ ORIGINAL_PIC_NAME>
</PIC>
图片原图存储在Original_Pic文件中，每个图片二进制数据保存成一个单独文件，文件名在Meta_Data的元信息中指明。
 
Evaluation_Data文件包含所有图片的相关元数据，格式如下：
<PIC>
<QUERY_URL>查询图片在互联网中的URL地址</QUERY_URL>
<RESULT_URL>搜索结果的 PIC_URL，多个分号隔开</RESULT_URL>
</PIC>

5、Imagenet数据集

业界标杆
Imagenet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，具体信息如下：

1）Total number of non-empty synsets: 21841

2）Total number of images: 14,197,122

3）Number of images with bounding box annotations: 1,034,908

4）Number of synsets with SIFT features: 1000

5）Number of images with SIFT features: 1.2 million

Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

与Imagenet数据集对应的有一个享誉全球的“ImageNet国际计算机视觉挑战赛(ILSVRC)”，以往一般是google、MSRA等大公司夺得冠军，今年（2016）ILSVRC2016中国团队包揽全部项目的冠军。

Imagenet数据集是一个非常优秀的数据集，但是标注难免会有错误，几乎每年都会对错误的数据进行修正或是删除，建议下载最新数据集并关注数据集更新。

数据集大小：~1TB（ILSVRC2016比赛全部数据）

下载地址： http://www.image-net.org/about-stats

6、COCO数据集
COCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。

Google开源的开源了图说生成模型show and tell就是在此数据集上测试的，想玩的可以下下来试试哈。

数据集大小：~40GB

下载地址：http://mscoco.org/

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集，它有如下特点：

1）Object segmentation

2）Recognition in Context

3）Multiple objects per image

4）More than 300,000 images

5）More than 2 Million instances

6）80 object categories

7）5 captions per image

8）Keypoints on 100,000 people

7、PASCAL VOC
PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类；动物（鸟、猫、牛、狗、马、羊）；交通工具（飞机、自行车、船、公共汽车、小轿车、摩托车、火车）；室内（瓶子、椅子、餐桌、盆栽植物、沙发、电视）。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

数据集大小：~2GB

下载地址： http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

8、Open Image
过去几年机器学习的发展使得计算机视觉有了快速的进步，系统能够自动描述图片，对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司，自然也要做出些表示，于是乎就有了Open Image。

Open Image是一个包含~900万张图像URL的数据集，里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet（1000类）包含更真实生活的实体存在，它足够让我们从头开始训练深度神经网络。

谷歌出品，必属精品！唯一不足的可能就是它只是提供图片URL，使用起来可能不如直接提供图片方便。

此数据集，笔者也未使用过，不过google出的东西质量应该还是有保障的。

数据集大小：~1.5GB（不包括图片）

下载地址：

https://github.com/openimages/dataset

9、Youtube-8M
Youtube-8M为谷歌开源的视频数据集，视频来自youtube，共计8百万个视频，总时长50万小时，4800类。为了保证标签视频数据库的稳定性和质量，谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库，谷歌对视频进行了预处理，并提取了帧级别的特征，提取的特征被压缩到可以放到一个硬盘中（小于1.5T）。

此数据集的下载提供下载脚本，由于国内网络的特殊原因，下载此数据经常断掉，不过还好下载脚本有续传功能，过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载，这样就不用一直守着了。（截至发文，断断续续的下载，笔者表示还没下完呢……）

数据集大小：~1.5TB

下载地址：https://research.google.com/youtube8m/

10、深度学习数据集收集网站
http://deeplearning.net/datasets/**

收集大量的各深度学习相关的数据集，但并不是所有开源的数据集都能在上面找到相关信息。

11、CoPhIR
http://cophir.isti.cnr.it/whatis.html

雅虎发布的超大Flickr数据集，包含1亿多张图片。

12、MirFlickr1M
http://press.liacs.nl/mirflickr/

Flickr数据集中挑选出的100万图像集。

13、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一个子集，包含100万的图像集。

14、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27万的图像集。

15、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/

包含100万的图像，23000视频；微软亚洲研究院出品，质量应该有保障。
.

16、多物体+关系数据库：HICO & HICO-DET
HICO has images containing multiple objects and these objects have been tagged along with their relationships. The proposed problem is for algorithms to be able to dig out objects in an image and relationship between them after being trained on this dataset. I expect multiple papers to come out of this dataset in future.

. 这里写图片描述

17、QA型图像数据库：CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning
CLEVR is an attempt by Fei-Fei Li’s group, the same scientist who developed the revolutionary ImageNet dataset. It has objects and questions asked about those objects along with their answers specified by humans. The aim of the project is to develop machines with common sense about what they see. So for example, the machine should be able to find “an odd one out” in an image automatically. You can download the dataset here.

. 这里写图片描述

18、Driver Speed Dataset
A 200 Gb huge dataset, which is aimed to calculate speed of moving vehicles. Can be downloaded here.

这里写图片描述
.

19、新加坡国立大学LV实验室发布多人图像解析数据集与模型
为了进一步推进人物解析研究，作者首创多人解析（MHP）数据集，每张图像均包含现实世界场景中的多个人物。具体而言，MHP数据集的每张图片包含2-16个人物不等，每个人物按照18个语义类别（背景除外）进行像素级别的标注。此外，MHP图像中的人物有多种姿态、不同程度的遮挡以及多样化的交互。为了解决所提出的多人解析这一难题，作者提出了一个新型的多人解析器 (MH-Parser)模型，在针对每个人物进行端到端解析的过程中，同时考虑全局信息与局部信息。实验结果表明，这一模型远优于简单的“检测+解析”方法，使得其作为一个稳定的基准，助推未来在真实场景中人物解析的相关研究。

. 这里写图片描述

20、300k动作标注视频数据集
DeepMind 最新发布30万 YouTube 视频剪辑的 Kinetics 数据集，包含400类人类动作注释，有助于视频理解机器学习。
Kinetics 是一个大规模、高质量的 YouTube 视频URL数据集，包含了各种各样的人类动作标记。我们发布 Kinetics 数据集的目的是助力机器学习社区推进视频理解模型的研究。

Kinetics 数据集包含大约30万个视频剪辑，涵盖400类人类动作，每类动作至少有400个视频剪辑。每个剪辑时长约10秒，并被标记一个动作类别。所有剪辑都经过多轮人工注释，每个剪辑都来自一个单独的 YouTube 视频。这些动作包含了广泛的人类-物体交互的动作，例如演奏乐器，以及人类-人类交互的动作，例如握手和拥抱。

Kinetics 是 ActivityNet 组织的国际人类动作分类竞赛（international human action classification competition）的基础数据集。

官网链接：https://deepmind.com/research/open-source/open-source-datasets/kinetics/

这里写图片描述
.

21、MIT 新发布大型数据集 ADE20K：用于场景感知、语义理解等多种任务
每个文件夹包含通过场景范畴进行分类的图像。对于每一张图像，目标和部件分割被存储为两种不同的 png 文件。所有的图像和部件示例都被分别注释。
官方网址：OVERVIEW
Full Dataset，Full-sized images and segmentations

来源机器之心公众号：资源 | MIT 新发布大型数据集 ADE20K：用于场景感知、语义理解等多种任务

22、免费数据集收集网站
各领域公开数据集下载

譬如：

图像数据
综合图像
Visual Genome 图像数据
Visual7w 图像数据
COCO 图像数据
SUFR 图像数据
ILSVRC 2014 训练数据（ImageNet的一部分）
PASCAL Visual Object Classes 2012 图像数据
PASCAL Visual Object Classes 2011 图像数据
PASCAL Visual Object Classes 2010 图像数据
80 Million Tiny Image 图像数据【数据太大仅有介绍】
ImageNet【数据太大仅有介绍】
Google Open Images【数据太大仅有介绍】

场景图像
Street Scences 图像数据
Places2 场景图像数据
UCF Google Street View 图像数据
SUN 场景图像数据
The Celebrity in Places 图像数据

22.交通标志识别
链接：http://benchmark.ini.rub.de/?section=gtsrb&subsection=dataset

有两个数据集可用：德国交通标志识别基准（GTSRB）（大型的多类别分类基准）和德国交通标志检测基准（GTSDB）。第一个在2011年IJCNN的比赛中使用。有关详细信息，请参阅“ GTSRB ”部分。后者将在2013年2月的竞赛中展出。该竞赛已针对2013年IJCNN提出。请参阅“ GTSDB ”部分以获取更多详细信息。

23.搜索推荐
这里介绍一个做服装搜索推荐的公开数据库deep fashion，一般淘宝等电商都很喜欢的推荐的推荐算法数据集，DeepFashion 包含80W张图片，具体包含50种类别，1000个属性，4-8个关键点，同一种衣服的配对属性。有兴趣的可以去玩玩，具体链接如下，http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion/LandmarkDetection.html。

三、一些著名研究实验室
1、生物识别与安全技术研究中心

CASIA行为分析数据库共有1446条视频数据，是由室外环境下分布在三个不同视角的摄像机拍摄而成，为行为分析提供实验数据。数据分为单人行为和多人交互行为，单人行为包括走、跑、弯腰走、跳、下蹲、晕倒、徘徊和砸车，每类行为有24人参与拍摄，每人4次左右。多人交互行为有抢劫、打斗、尾随、赶上、碰头、会合和超越，每两人1次或2次。

1
来源：http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

该实验室拥有的数据库：虹膜数据库，步态数据库，人脸数据库，指纹数据库，掌纹数据库，笔迹数据库，行为分析数据库
该实验室研究成果：
近红外的人脸身份识别技术和系统，中远距离人脸识别系统，人脸检测与跟踪，多目标遮挡跟踪，目标检测、跟踪与分类，异常动作检测，人异常行为检测与报警，交通车辆计数演示，主从摄像机跟踪，
多摄像机数据融合（全景监控地图），交通拥堵检测与报警，车辆异常行为检测与报警，夜间跟踪演示，动态场景下的主动跟踪，视频图像序列拼接，人数统计，视频浓缩

2、中文语言资源联盟
中文语言资源联盟，英文译名Chinese Linguistic Data Consortium，缩写为CLDC。 CLDC是由中国中文信息学会语言资源建设和管理工作委员会发起，由中文语言（包括文本、语音、文字等）资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体，其宗旨是团结中文语言资源建设领域的广大科技工作者，建成代表中文信息处理国际水平的、通用的中文语言语音资源库。
这里写图片描述
当然，里面的内容都是收费的，而且不便宜，不过毕竟是好东西~

3、中科院自动化研究所模式识别国家重点实验室

这里写图片描述
4、北邮模式识别实验室
http://www.pris.net.cn/

图像识别方向的技术有：
高清车牌及车标识别技术、不良图片过滤、图片检索技术

5、中国科学技术大学，图像处理实验室
http://image.ustc.edu.cn/project.html
国家自然基金重点项目：高分辨率SAR图像目标认知模型及高效算法
国家自然科学基金项目：星上原始超光谱图像稀疏编码压缩技术研究
973课题：稀疏微波成像数据压缩及特征理解
果然有钱！！

6、国内高校开源镜像站友情链接
清华大学开源镜像站
http://mirror.tuna.tsinghua.edu.cn/
中国科学技术大学开源镜像站
http://mirrors.ustc.edu.cn
北京交通大学开源镜像站
http://mirror.bjtu.edu.cn/cn/
兰州大学开源镜像站
http://mirror.lzu.edu.cn/
厦门大学开源镜像站
http://mirrors.xmu.edu.cn/
上海交通大学开源镜像站
http://ftp.sjtu.edu.cn/
东软信息学院开源镜像站
http://mirrors.neusoft.edu.cn/

7、网页版呈现各类模型的实现
https://github.com/hwalsuklee/awesome-deep-vision-web-demo

. 这里写图片描述

四、中文文本语料库
可参考：【语料库】语料库资源汇总
NLP常用信息资源：https://github.com/memect/hao/blob/master/awesome/nlp.md
FudanNLP (FNLP)（FNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。）：https://github.com/FudanNLP/fnlp

(一) 国家语委

1国家语委现代汉语语料库http://www.cncorpus.org/

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字，为分词和词性标注语料。

2古代汉语语料库http://www.cncorpus.org/login.aspx

网站现在还增加了一亿字的古代汉语生语料，研究古代汉语的也可以去查询和下载。同时，还提供了分词、词性标注软件、词频统计、字频统计软件，基于国家语委语料库的字频词频统计结果和发布的词表等，以供学习研究语言文字的老师同学使用。

(二) 北京大学计算语言学研究所

1《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布，供自由下载。

(三) 北京语言大学

汉语国际教育技术研发中心：HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

语言研究所：北京口语语料查询系统（B J K Y）http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

还有很多，可参考：【语料库】语料库资源汇总

百度开源的中文问答语料：
WebQA: A Chinese Open-Domain Factoid Question Answering Dataset
发布的文件有267MB，但对于我们来说，里边的东西貌似有点过多了，因为里边包含了分词结果、序列标注结果、词向量结果，貌似是内部研究小组直接用来做的实验。对于我们来说，显然只需要纯粹的问答语料就行了。
相关介绍可见：百度的中文问答数据集WebQA

微博终结者爬虫

这个项目致力于对抗微博的反爬虫机制，集合众人的力量把微博成千上万的微博评论语料爬取下来并制作成一个开源的高质量中文对话语料，推动中文对话系统的研发。
github：https://github.com/jinfagang/weibo_terminater

原文出处：链接

参考链接：

https://blog.csdn.net/Dlyldxwl/article/details/76272707

http://www.cbdio.com/BigData/2016-10/28/content_5361410.htm

https://blog.csdn.net/tcx1992/article/details/80580089