在学习卷积神经网络的时候,遇到了cifar10图像数据集,用着挺好,但不想局限于固定的几种图像的识别,所以就有了自己制作数据集来识别的想法。
一、cifar10数据集。
据原网站介绍,数据集为二进制。将cifar10解压后,得到data_batch_1等数据集,打开看一下:
import pickle
f = open('./data_batch_1','rb') #以二进制读模式打开
d = pickle.load(f)
print(d)
可知数据集为dict型,主要有’data’和’labels’等四种键值。
二、爬取图片
首先要感谢被爬网站的开放性和包容心,潭州教育坚持对爬虫技术的无私分享以及博主Jimmy。
import requests
import urllib.parse
import threading
# 设置最大线程锁(与电脑配置和带宽有关)
thread_lock = threading.BoundedSemaphore(value=10)
def get_page(url):
page = requests.get(url)
page = page.content
page = page.decode('utf-8')
# 将 bytes 转换成 字符串
return page
def pages_from_duitang(label):
pages = []
#找到图片链接规律