Caffe学习笔记（二）——AlexNet模型

最新推荐文章于 2024-04-25 10:57:19 发布

缄默笔记

最新推荐文章于 2024-04-25 10:57:19 发布

阅读量1.8w

点赞数 3

分类专栏：深度学习文章标签： caffe AlexNet 深度学习 CNN Convolutional Neural

本文链接：https://blog.csdn.net/hong__fang/article/details/52080280

版权

本文深入探讨Caffe中AlexNet模型的结构和改进，包括ReLU非线性、多GPU训练、局部响应归一化、重叠Pooling以及如何减少过拟合。AlexNet是深度学习在ImageNet上的里程碑，开启更大更深CNN的研究，为后续的网络结构奠定了基础。

摘要由CSDN通过智能技术生成

本文主要介绍：Caffe中一个最基本的深度学习模型AlexNet模型，原论文为：ImageNet Classification with Deep Convolutional Neural Networks。

转载请注明出处：http://blog.csdn.net/hong__fang/article/details/52080280

1 LeNet-5

1.1局限性

早在1989年，Yann LeCun (现纽约大学教授) 和他的同事们就发表了卷积神经网络（Convolution NeuralNetworks，简称CNN）的工作。在很长时间里，CNN虽然在小规模的问题上，如手写数字，取得过当时世界最好结果，但一直没有取得巨大成功。这主要原因是，CNN在大规模图像上效果不好，比如像素很多的自然图片内容理解，所以没有得到计算机视觉领域的足够重视。

这个惊人的结果为什么在之前没有发生？原因当然包括算法的提升，比如dropout等防止过拟合技术，但最重要的是，GPU带来的计算能力提升和更多的训练数据。

1.2 理解

（1）为什么F6神经元是84维？

原文是用于手写字识别，手写字范围为0-9共有10个字符，因此输出OUTPUT层的节点共10个，可以把每个字符格式化为12*7的图像，如上图，共有84个像元，像元的参数成分（即像素值）可以设为1和-1，此时C5到F6是通过sigmod函数计算的，因此F6节点的值范围为-1到1，因此可以根据F6节点的值 $x_{i}$ 和格式化图像 $w_{ij}$ （参数向量）的值距离，来判断输入图像的类别，即通过径向基函数：

输入离参数向量越远，RBF输出的越大。

所有训练参数和连接个数：

2 AlexNet

本深度学习网络是Alex和Hinton参加ILSVRC2012比赛的卷积网络论文，本网络结构也是开启ImageNet数据集更大，更深CNN的开山之作，本文对CNN的一些改进成为以后CNN网络通用的结构；在一些报告中被称为Alex-net，之后在Imagenet上取得更好结果的ZF-net，SPP-net，VGG等网络，都是在其基础上修改得到。

原论文：ImageNet Classification with Deep Convolutional Neural Networks

2.1 结构介绍

2.1.1 ReLU非线性

模拟神经元输出的标准函数一般是：tanh(x)或者sigmoid(x)

最低0.47元/天解锁文章

缄默笔记

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
Caffe学习笔记（二）——AlexNet模型

深度学习笔记1 LeNet-5 21.1 局限性 21.2 理解 22 AlexNet 2.1 结构介绍 42.1.1 ReLU非线性 42.1.2 在多个GPU上训练 42.1.3 局部响应归一化 42.1.4 重叠Pooling 52.1.5 减少过拟合 62.2 总体结构 82.2.1 总体介绍 82.2.2 各层运算、维度和参数 92
复制链接

扫一扫