深度学习,制作类似cifar10图像数据集

本文介绍了如何制作类似cifar10的图像数据集,包括从爬取图片、处理图片到创建数据集的步骤。通过潭州教育的教程,使用Python爬虫从网站获取图片,然后利用PIL库处理图像,将其转化为适合深度学习的格式。最后,创建的数据集在简单的模型中达到了76%的识别精度。
摘要由CSDN通过智能技术生成

 

在学习卷积神经网络的时候,遇到了cifar10图像数据集,用着挺好,但不想局限于固定的几种图像的识别,所以就有了自己制作数据集来识别的想法。

 

一、cifar10数据集。

据原网站介绍,数据集为二进制。将cifar10解压后,得到data_batch_1等数据集,打开看一下:

import pickle

f = open('./data_batch_1','rb') #以二进制读模式打开

d = pickle.load(f)

print(d)

可知数据集为dict型,主要有datalabels等四种键值。

 

二、爬取图片

首先要感谢被爬网站的开放性和包容心,潭州教育坚持对爬虫技术的无私分享以及博主Jimmy

 

import requests

import urllib.parse

import threading

# 设置最大线程锁(与电脑配置和带宽有关)

thread_lock = threading.BoundedSemaphore(value=10)

def get_page(url):

    page = requests.get(url)

    page = page.content

    page = page.decode('utf-8')

    # 将 bytes 转换成 字符串

    return page

 

def pages_from_duitang(label):

    pages = []

    #找到图片链接规律

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值