全文共1709字,预计学习时长5分钟
图源:unsplash
计算机视觉使得计算机能够理解图像和视频的内容,其目标是能够如同人体视觉系统一样,自动完成任务。计算机视觉任务包括图像采集、处理和分析。图像数据以不同的形式呈现,如视频序列、多机位成像,或是来自医学扫描仪的多维数据。本文就将介绍一些适用于机器学习训练的数据集。
Labelme:由麻省理工学院计算机科学和人工智能实验室(CSAIL)共同创建的大型数据集,包含187240张图像、62197张带注释的图像和658992个带标签的对象。
ImageNet:新算法的实际图像数据集,根据WordNet层次结构进行组织,层次结构中的每个节点都由成百上千的图像描述。
LSUN:场景理解,附带许多辅助任务(房间布局估计、显著性预测等)。
MS COCO:COCO是一个大规模的对象检测、分割和说明的数据集,包含200000张以上带标签的图像。可用于对象分割、上下文中的识别等等。
哥伦比亚大学图像库:COIL100数据集包含100个不同的对象,以360°全角度成像。
Visual Genome:是一个数据集兼知识库,旨在将结构化图像概念与语言联系起来。该数据集是包含108077张图像说明的详细视觉知识库。