【图像识别】CIFAR-10(CNN)

一、CIFAR-10简介

CIFAR-10官网

CIFAR-10 是由 Hinton的学生Alex Krizhevsky和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。
它一共包含10个类别的RGB彩色图片,具体参考如下图:

Vici__CIFAR1

数据集中一共有5000张训练图片和1000张测试图片,图片的尺寸大小为 32 * 32。

官方提供文件介绍:

文件用途
cifar10.py建立 CIFAR-10 预测模型
cifar10_input.py在 TensorFlow 中读入 CIFAR-10 文件
cifar10_input_test.pycifar10_input.py 的测试用例文件
cifar10_train.py使用单个GPU或CPU训练模型
cifar10_train_multi_gpu.py使用多个GPU训练模型
cifar10_eval.py在测试集上测试模型的性能

- cifar10.py 文件中的 inference(images) 函数是官方提供的模型。 

二、CIFAR-10 和 MNIST数据集的区别

 CIFAR-10MNIST
图像通道数3 通道的 RGB 图像灰度图像
尺寸大小32 × 3228 × 28
图片内容现实世界的真实物体0 ~ 9 数字
图片特点

噪声很大,可能有背景图片或其他物体干扰;


物体的比例、特征都不尽相同,识别难度大

噪声小,干扰物体少;


易识别

 三、参考官方代码编写CNN模型

import tensorflow as tf
import numpy as np
import time
import math
# 官方提供的两个文件,用于对数据集的输入等操作
import cifar10
import cifar10_input

max_steps = 3000 # 训练次数
batch_size = 128 # 批处理参数

# ---1.加载数据 ---

# 下载cifar10数据集的默认路径,需要把cifar10.py/line 53/对应代码改一下
data_dir = 'D:/Python_code/Data/cifar-10-python/cifar-10-batches-bin'

# 权值初始化函数(shape,标准差,L2正则化比例系数)
def variable_with_weight_losses(shape, stddev, wl):
  # 使用tf.truncated_normal截断的正态分布来初始化
  var = tf.Variable(tf.truncated_normal(shape, stddev=stddev))
  if wl is not None:
    # 做一个L2的正则化处理,用wl控制L2的大小比例
    weight_loss = tf.multiply(tf.nn.l2_loss(var), wl, name='weight_loss')
    # 将weight_loss统一存放起来
    tf.add_to_collection("losses", weight_loss)
  return var

# 调用cifar10.py中的一个函数,下载数据集,并解压
cifar10.maybe_download_and_extract()

# 生成训练数据,使用distorted_inputs函数,做数据增强处理
images_train, labels_train = cifar10_input.distorted_inputs(data_dir=data_dir, batch_size=batch_size)
# 生成测试数据,不必做数据增强
images_test, labels_test = cifar10_input.inputs(eval_data=True, data_dir=data_dir, batch_size=batch_size)

# 占位符
image_holder = tf.placeholder(tf.float32, [batch_size, 24, 24, 3])
label_holder = tf.placeholder(tf.int32, [batch_size])


# ---2. 构建模型 ---

# 第一层卷积层,64个卷积核,大小为5*5,3通道(RGB三种颜色通道)
  # 1).定义权重
weight1 = variable_with_weight_losses(shape=[5,5,3,64], stddev=0.05, wl=0.0)
  # 2).卷积操作
kernel1 = tf.nn.conv2d(image_holder, filter=weight1, strides=[1, 1, 1, 1], padding='SAME')
  # 3).定义偏差
bias1 = tf.Variable(tf.constant(0.0, shape=[64]))
  # 4).relu激活函数
conv1 = tf.nn.relu(tf.nn.bias_add(kernel1, bias1))
  # 5).最大池化
pool1 = tf.nn.max_pool(conv1, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME')
  # 6.lrn: 局部响应归一化,可防止过拟合,原理是生物学上的‘侧抑制’,(通俗来讲就是增强强的地方,削弱弱的地方)
  # pool1表示输入数据,4表示使用前后几层进行归一化操作,bias表示偏移量,alpha和beta表示系数
norm1 = tf.nn.lrn(pool1, 4, bias=1.0, alpha=0.001/9.0, beta=0.75)

# 第二层卷积层
weight2 = variable_with_weight_losses(shape=[5,5,64,64], stddev=5e-2, wl=0.0)
kernel2 = tf.nn.conv2d(norm1, filter=weight2, strides=[1, 1, 1, 1], padding='SAME')
bias2 = tf.Variable(tf.constant(0.1, shape=[64]))
conv2 = tf.nn.relu(tf.nn.bias_add(kernel2, bias2))
norm2 = tf.nn.lrn(conv2, 4, bias=1.0, alpha=0.001/9.0, beta=0.75)
pool2 = tf.nn.max_pool(norm2, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME')

# 第三层全连接层
# 将第二层卷积层输出结果变成一维向量
reshape = tf.reshape(pool2, [batch_size, -1])
dim = reshape.get_shape()[1].value
# 初始化权值,隐含节点384个,正态分布标准差为0.04,偏差bias为0.1
weight3 = variable_with_weight_losses(shape=[dim,384], stddev=0.04, wl=0.004)
bias3 = tf.Variable(tf.constant(0.1, shape=[384]))
local3 = tf.nn.relu(tf.matmul(reshape, weight3) + bias3)

# 第四层全连接层
weight4 = variable_with_weight_losses(shape=[384,192], stddev=0.04, wl=0.004)
bias4 = tf.Variable(tf.constant(0.1, shape=[192]))
local4 = tf.nn.relu(tf.matmul(local3, weight4) + bias4)

# 第五层输出层
weight5 = variable_with_weight_losses(shape=[192,10], stddev=1/192.0, wl=0.0)
bias5 = tf.Variable(tf.constant(0.0, shape=[10]))
logits = tf.add(tf.matmul(local4, weight5), bias5)

# 定义损失函数
def loss(logits, labels):
  labels = tf.cast(labels, tf.int64)
  # 交叉熵损失函数
  cross_entropy = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
    logits=logits, labels=labels
  ))
  tf.add_to_collection('losses', cross_entropy)
  return tf.add_n(tf.get_collection('losses'), name='total_loss')

loss = loss(logits=logits,labels=label_holder)
train_op = tf.train.AdamOptimizer(0.001).minimize(loss)
top_k_op = tf.nn.in_top_k(logits, label_holder, 1)

# ---3. 训练模型---
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()
# 引入多线程
tf.train.start_queue_runners()

for step in range(max_steps):
  start_time = time.time()
  image_batch, label_batch = sess.run([images_train, labels_train])
  _, loss_value = sess.run([train_op, loss], feed_dict={image_holder: image_batch, label_holder: label_batch})
  duration = time.time() - start_time
  if step % 10 == 0:
    examples_per_sec = batch_size / duration
    sec_per_batch = float(duration)
    str = 'step %d, loss = %.2f (%.1f examples/sec; %.3f sec/batch)'
    #print(step, loss_value)
    print(str % (step, loss_value, examples_per_sec, sec_per_batch))

num_examples = 10000
num_iter = int(math.ceil(num_examples / batch_size))
true_count = 0
total_sample_count = num_iter * batch_size
step = 0
while step < num_iter:
  image_batch, label_batch = sess.run([images_test, labels_test])
  predictions = sess.run([top_k_op], feed_dict={image_holder: image_batch, label_holder: label_batch})
  true_count += np.sum(predictions)
  step += 1

precision = true_count / total_sample_count
print('precision = %.3f' % precision)

 

四、训练结果

左图是基于 MNIST 采用 RMSProp 算法的优化器;
右图是参考书籍采用 Adam 优化器。
测试次数都是3000次。

   

 

参考文献:

  1. 《21个项目玩转深度学习》何之源 
  2.    bilibili - CNN识别图片
  3.    CIFAR 官网
  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CIFAR-10是一个用于图像识别的数据集,其中包含10个类别的50000张32x32的彩色图像。模型使用卷积神经网络(CNN)来进行图像识别CNN通过使用卷积层来提取图像的特征,然后使用池化层来减小图像的尺寸,最后使用全连接层来分类图像。这个模型需要训练数据来学习如何将图像分类到正确的类别。 ### 回答2: CIFAR-10卷积神经网络模型是用于图像识别的一种常见模型。CIFAR-10是一个广泛使用的图像分类数据集,包含来自十个不同类别的60000个32x32彩色图像。卷积神经网络(CNN)是处理图像数据的深度学习模型。 CIFAR-10卷积神经网络模型的图像识别过程大致分为以下几个步骤: 1. 输入层:将32x32像素的彩色图像作为输入。 2. 卷积层:利用多个卷积核对输入图像进行卷积操作,提取图像的空间特征。通过卷积操作,可以获得图像内部的局部特征,并减少参数的数量。 3. 激活函数:在卷积层之后,通过给卷积结果应用激活函数,如ReLU函数,增强模型的非线性能力。 4. 池化层:对卷积层输出的特征图进行下采样,减少维度并提取图像的重要特征。 5. 全连接层:将池化层的输出展平,并与权重进行矩阵相乘,得到特征向量,然后通过全连接层进行分类操作。 6. 输出层:采用Softmax函数作为激活函数,将最终的特征向量映射为一组概率输出,表示图像属于每个类别的概率。 7. 损失函数:采用交叉熵损失函数,计算实际输出与预测输出的差距,并通过反向传播更新模型参数,提高模型的准确性。 8. 反向传播:通过梯度下降算法,更新每个层的权重和偏置,以最小化损失函数。 9. 输出预测:根据最终的概率输出结果,选择概率最高的类别作为图像的预测标签。 通过不断迭代训练集和测试集,优化模型参数,CIFAR-10卷积神经网络模型可以实现对CIFAR-10数据集中图像的准确分类和识别。 ### 回答3: CIFAR-10是一个常用的图像识别数据集,其中包含了10个不同物体类别的图像。卷积神经网络(Convolutional Neural Network,CNN)是一种在图像识别任务中表现出色的深度学习模型。下面我将用300字中文为你介绍CIFAR-10卷积神经网络模型图像识别CIFAR-10卷积神经网络模型图像识别任务的目标是根据给定的图像,判断它属于10个不同的类别中的哪一个。这10个类别包括了飞机、汽车、鸟类、猫、鹿、狗、蛙、马、船和卡车。 卷积神经网络模型是一种特别适合图像处理任务的神经网络结构。它通过对图像进行多层卷积运算和下采样,逐渐提取图像的特征,并最终进行分类。卷积操作可以捕捉到图像的局部结构和模式,而下采样操作可以增加模型的鲁棒性和计算效率。 在CIFAR-10图像识别任务中,卷积神经网络通常由多个卷积层、池化层、全连接层和输出层组成。卷积层通过在图像上进行卷积操作,提取图像中的特征信息。池化层通过对卷积层的输出进行下采样,减少参数数量,并保留重要特征。全连接层接收池化层的输出,并将其转换为最终的分类结果。输出层使用softmax激活函数将分类结果进行概率分布化。 为了提高模型的性能,可以在卷积神经网络中使用批归一化、dropout、激活函数等技术。批归一化可以加快模型训练速度、提高模型的鲁棒性,dropout可以减轻过拟合问题,激活函数可以引入非线性,提高模型的表达能力。 CIFAR-10卷积神经网络模型图像识别任务是一个非常有挑战性的任务,需要大量的训练样本和计算资源。通过不断优化模型结构、调整超参数和增加训练数据,我们可以提高模型的准确性,并实现更好的图像识别效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值