数据的获取与准备（笔记一）

最新推荐文章于 2024-06-21 09:43:20 发布

Shaun_J

最新推荐文章于 2024-06-21 09:43:20 发布

阅读量514

点赞数

本文链接：https://blog.csdn.net/sinat_28408683/article/details/81010574

版权

一、开源数据集

常用数据集：

1.PASCAL VOC

2.COCO

3.CIFAR

4.MNIST

Minist 数据集为入门的手写识别数据集，一般作为入门练习用，堪称深度学习的“Hello World".Cifar 是专门用于分类的数据集，有两个版本，一个是10分类，另一个是100分类。VOC和COCO都可以用于分类、检测和分割。这两个数据集偏日常生活场景。

自动驾驶数据集：

1.Udacity

2.BDD100k

3.KITTI

4.Apollo Scape

百度刚开源的阿波罗数据集类别目前最丰富，适合中国道路实际场景。

各大领域公开数据集汇总：http://zhuanlan.zhihu.com/p/25138563

二、数据的爬取

爬虫部分分为图片爬虫和视频爬虫，首先说关于图片的爬虫，介绍三个爬虫，这三个爬虫将涉及Google、Bing、百度、微博上图片的爬取，以下是git地址：
（1）https://github.com/sczhengyabin/Image-Downloader
（2）https://github.com/kong36088/BaiduImageSpider.git

（3）https://github.com/yAnXImIN/weiboPicDownloader.git

先说第一个（1）https://github.com/sczhengyabin/Image-Downloader，这个爬虫的功能是可以爬取百度、Bing、Google上的图片，并且提供了GUI方便操作。使用起来也很方便，只需要根据该项目的readme配置适合自己电脑的环境就可以使用。使用方法是：python image_downloader_gui.py

三、数据标注平台与工具

所谓的标注就是对未处理的初级数据，包括语音、图片、文本、视频等进行加工处理（如标识发音人性别，判断噪音类型等），转换为机器可识别信息的过程。

下面介绍两个数据标注平台：一个是数据堂众包，另一个是亚马逊众包，都可对语音、图片、文本、视频进行加工处理，满足不同需求。

（1）数据堂众包

（2）精灵数据标注：

与 Labelme 本质差不多，工具支持图像、文本和视频等多种标注形式：图像分类、矩形框、多边形、曲线定位、3D 定位文本分类、文本实体标注、视频跟踪等多个任务。另外可以通过插件形式支持自定义标注，满足不同需求，也可以导出主流数据集格式，PascalVoc 和 CoreNLP 等，一样是全平台支持。

四、数据清洗

数据清洗：把脏数据清洗掉，提高数据质量。
Data cleansing, Data cleaning, Data scrubbing三种表达方式都可以，意思都是检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声。
数据清洗分为有监督清洗和无监督清洗两类。

有监督清洗：在领域专家的指导下，收集分析数据，手工去除明显的噪声数据和重复记录，填补缺值数据等清洗动作；
无监督清洗：根据一定的业务规则，预先定义好数据清洗算法，由计算机自动执行算法，对数据集进行清洗，然后产生清洗报告。
一般都是先无监督清洗，产生清洗报告，再让专家根据清晰报告对清洗的结果进行人工整理

Shaun_J

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据的获取与准备（笔记一）

一、开源数据集常用数据集：1.PASCAL VOC2.COCO3.CIFAR4.MNISTMinist 数据集为入门的手写识别数据集，一般作为入门练习用，堪称深度学习的“Hello World".Cifar 是专门用于分类的数据集，有两个版本，一个是10分类，另一个是100分类。VOC和COCO都可以用于分类、检测和分割。这两个数据集偏日常生活场景。自动驾驶数据集：1.Udacity2.BDD10...
复制链接

扫一扫