附录A 公开数据集
为了方便读者进行更多实践,本附录给读者介绍一些可用的公开数据集。
A.1 图片数据集
ImageNet[1]是目前世界上最大的图像识别数据集,包含14197122张图像,由斯坦福大学视觉实验室终身教授李飞飞创立。每年的ImageNet大赛是国际上计算机视觉的顶级赛事。
COCO[2]是微软创立的用于分割和加字幕标注的数据集。其主要特征如下:
- 目标分割;
- 通过上下文进行识别;
- 每个图像包含多个目标对象;
- 超过300000个图像;
- 超过2000000个实例;
- 80种对象;
- 每个图像包含5个字幕;
- 包含100000个人的关键点。
CIFAR[3](Canada Institude For Advanced Research)是由加拿大先进技术研究院收集的8 000万小图片的数据集。CIFAR包含CIFAR-10和CIFAR-100两个数据集。Cifar-10由60 000张32×32的RGB彩色图片构成,共10个类别,50 000张训练,10 000张测试(交叉验证)。CIFAR-100由60