本文是深度学习经典算法解读的一部分,原文发之:https://www.datalearner.com/blog/1051558603213207
GoogLeNet是谷歌在2014年提出的一种CNN深度学习方法,它赢得了2014年ILSVRC的冠军,其错误率要低于当时的VGGNet。它于2015年发表在CVPR上。GoogLeNet也称为Inception v1。因为后面它还提出了很多的改进版本,包括v2、v3、v4等。
与之前的深度学习网络思路不同,之前的CNN网络的主要目标还是加深网络的深度,而GoogLeNet则提出了一种新的结构,称之为inception。本文将详细讲述这种结构,以及基于此结构提出的GoogLeNet。
一般来说,同一个物体在不同图像中的位置差别很大,大小也不同。识别这种物体是很困难的。为了识别这种物体,需要准确的卷积操作。大的卷积核通常倾向于全局信息,而小的卷积核则主要捕获局部信息。为了解决这个问题,GoogLeNet的思路是在同一层使用多个不同大小的卷积核来捕捉信息,这种结构就是inception。下面我们根据论文思路来说明。
除此之外,GoogLeNet的主要目标是为了增加网络的宽度,并降低参数的数量。从结果来看,GoogLeNet利用inception结构组成了一个22层的巨大的网络,但是其参数却比之前的如AlexNet网络低很多。是一种非常优秀的CNN结构。
一、研究背景
过去几年深度学习的发展,图像识别和物体检测领域有了很大的进步。这些进步不仅仅是因为硬件算力的进步、更多的数据集和更深的网络,也有一部分新的思想的出现。在这篇论文中,坐着提出了GoogLeNet,它用到了更少的参数(比两年前的AlexNet少12倍),但是准确率更高。
对象检测(object-detection)这几年最大的进步并不是使用了深度学习,或者是利用了更大的模型。而是深度架构和传统计算机视觉方法的协同作用