最近在用Caffe_Windows做CNN分类识别。先前数据采集这块不是由我负责的,今天突然也想把这块跑通,这样后面就可以玩一些自己的想要的识别了。由于CNN training Datasets特别重要,抓取数据必不可少。
例程数据集:wget -c https://storage.googleapis.com/openimages/2016_08/images_2016_08_v5.tar.gz
首先查看一下该数据集:
# -*- coding : utf-8 -*- import csv import os from urllib import request file = open('./validation/images.csv', 'r', encoding='gb18030', errors='ignore') imagereader = csv.DictReader(file) for item in imagereader: print(item)
这里特意选择DictReader,而不是reader,返回dict类型,便于操作,部分结果如下:
这样我们需要下载图片的话&#