TensorFlow：实战Google深度学习框架第二版——第六章

本文链接：https://blog.csdn.net/m0_37857151/article/details/87539455

本文深入探讨图像识别问题，包括MNIST和CIFAR数据集，重点介绍了卷积神经网络（CNN）及其在ImageNet挑战中的应用。详细阐述了CNN的结构，如卷积层和池化层，以及经典模型如LeNet-5和Inception。最后，讨论了卷积神经网络的迁移学习策略。

摘要由CSDN通过智能技术生成

第六章——图像识别与卷积神经网络

6.1 图像识别问题简介及经典数据集

第五章用到的MNIST手写体识别数据集。

CIFAR 数据集就是一个影响力很大的图像分类数据集。CIFAR 数据集分为了 CIFAR-10 和 CIFAR-100 两个问题，它们都是图像词典项目（Visual Dictionary）中 800 万张图片的一个子集。 CIFAR 数据集中的图片为 32×32 的彩色图片，每张图片仅包含一个种类的物体。

CIFAR-10 问题收集了来自 10 个不同种类的 60000 张图片。和 MNIST 相比， CIFAR 数据集最大的区别在于图片由黑白变成的彩色，且分类的难度也相对更高。CIFAR 官网 ht叩s://www.cs.toronto.edu/～kriz/ cifar.html 提供了不同格式的 CIF1忧数据集下载，具体的数据格式这里不再赘述。

无论是 MNIST 数据集还是 CIFAR 数据集，相比真实环境下的图像识别问题，有 2 个最大的问题。第一，现实生活中的图片分辨率要远高于 32× 32，而且图像的分辨率也不会是同定的。第二，现实生活中的物体类别很多，无论是 10 种还是 100 种都远远不够，而且一张图片中不会儿出现一个种类的物体。为了更加贴近真实环境下的图像识别问题，由斯坦福大学（Stanford University）的李飞飞（Feifei Li）教授带头整理的 ImageNet 很大程度地解决了这两个问题。

ImageNet 是一个基于 WordNet®的大型图像数据库。在 ImageNet 中，将近 1500 万图片被关联到了 WordNet 的大约 20000 个名词同义词集上。目前每一个与 ImageNet 相关的 WordNet 同义词集都代表了现实世界中的一个实体，可以被认为是分类问题中的一个类别。ImageNet 中的图片都是从互联网上爬取下来的，井且通过亚马逊的人工标注服务（Amazon Mechanical Turk）将图片分类到 WordNet 的同义词集上。在 ImageNet 的图片中，一张图片中可能出现多个同义词集所代表的实体。

在物体识别问题中，一般将用于框出实体的矩形称为 bounding box

ImageNet 每年都举办图像识别相关的竞赛 ClmageNet Large Scale Visual Recognition Challenge, ILSVRC），而且每年的竞赛都会有一些不同的问题，这些问题基本涵盖了图像识别的主要研究方向。 ImageNet 的官网 http://www.image-net.org/challenges/LSVRC 列出了历届 ILSVRC 竞赛的题目和数据集。不同年份的 ImageNet 比赛提供了不同的数据集，本书将着重介绍使用得最多的 ILSVRC2012 图像分类数据集。

注：ImageNet数据集中根据任务种类不同有不同的数据集，这里主要使用的是分类数据集。

top-N 正确率指的是图像识别算法给出前 N 个答案中有一个是正确的概率。在图像分类问题上，很多学术论文都将前 N 个答案的正确率作为比较的方法，其中 N 的取值一般为 3 或 5。