本文主要介绍:Caffe中一个最基本的深度学习模型AlexNet模型,原论文为:ImageNet Classification with Deep Convolutional Neural Networks。
转载请注明出处:http://blog.csdn.net/hong__fang/article/details/52080280
1 LeNet-5
1.1局限性
早在1989年,Yann LeCun (现纽约大学教授) 和他的同事们就发表了卷积神经网络(Convolution NeuralNetworks, 简称CNN)的工作。在很长时间里,CNN虽然在小规模的问题上,如手写数字,取得过当时世界最好结果,但一直没有取得巨大成功。这主要原因是,CNN在大规模图像上效果不好,比如像素很多的自然图片内容理解,所以没有得到计算机视觉领域的足够重视。
这个惊人的结果为什么在之前没有发生? 原因当然包括算法的提升,比如dropout等防止过拟合技术,但最重要的是,GPU带来的计算能力提升和更多的训练数据。
1.2 理解
(1)为什么F6神经元是84维 ?
原文是用于手写字识别,手写字范围为0-9共有10个字符,因此输出OUTPUT层的节点共10个,可以把每个字符格式化为12*7的图像,如上图,共有84个像元,像元的参数成分(即像素值)可以设为1和-1,此时C5到F6是通过sigmod函数计算的,因此F6节点的值范围为-1到1,因此可以根据F6节点的值和格式化图像
(参数向量)的值距离,来判断输入图像的类别,即通过径向基函数:
输入离参数向量越远,RBF输出的越大。
所有训练参数和连接个数:
2 AlexNet
本深度学习网络是Alex和Hinton参加ILSVRC2012比赛的卷积网络论文,本网络结构也是开启ImageNet数据集更大,更深CNN的开山之作,本文对CNN的一些改进成为以后CNN网络通用的结构;在一些报告中被称为Alex-net,之后在Imagenet上取得更好结果的ZF-net,SPP-net,VGG等网络,都是在其基础上修改得到。
原论文:ImageNet Classification with Deep Convolutional Neural Networks
2.1 结构介绍
2.1.1 ReLU非线性
模拟神经元输出的标准函数一般是:tanh(x)或者sigmoid(x)