Convnet介绍（1）

最新推荐文章于 2024-08-16 07:34:15 发布

douzeyang123

最新推荐文章于 2024-08-16 07:34:15 发布

阅读量1.9w

点赞数 7

分类专栏：学习笔记文章标签：深度学习卷积神经网络神经网络

本文链接：https://blog.csdn.net/douzeyang123/article/details/52635458

版权

学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近准备开始进军deep learning这个深坑了！最开始还是要从卷积神经网络看起。最近刚刚翻到一篇讲解convnet非常好的文章，决定在此翻译下来。供参考学习。

(附原版文章地址链接：http://cs231n.github.io/convolutional-networks/#pool)

卷积神经网络(CNNs/ConvNets)

卷积神经网络与传统的神经网络非常类似：他们是由一系列可以被训练的神经元组成（可训练的部分为权重（weight）与偏置（bias））。每一个神经元接收一些输入，然后通过点乘和一些非线性变换（如：reLu，sigmoid函数，tanh等等）。整个网络可以模拟出一个可微分的打分函数：以原始的图像像素为输入，以各个类别的分数为输出。CNN在最后一层通常也有损失函数（loss function）（比如SVM/softmax），这点跟传统的神经网络非常像。

那么CNN跟传统神经网络有什么区别？本文的CNN假设输入为图像，这样就可以从图像的角度来改进网络，使得整个网络实现起来更加有效，同时减少了训练参数的数目。

一、整体介绍

回忆：传统的神经网络。传统的神经网络输入一个向量，通过隐藏层对这个向量做若干次变换，最后输出结果。每一个隐藏层是由一系列的神经元构成，每一个神经元与上一层的神经元全部链接，同一层的神经元之间不相互连接。最后一层为输出层，对于分类问题来说，输出层输出各个类别的分数。

传统神经网络对于大型图像来说并不适用。举个例子来说，在CIFAR-10的数据集中，图像的大小为32*32*3，所以对于第一层隐藏层的一个神经元来说，它有32*32*3=3072个参数。这个数字看起来不大，这是因为图像非常的小。如果图像的大小为200*200*3，那么一个神经元需要训练的参数为200*200*3+1=120001个。这仅仅是一个神经元，如果算上其他的神经元，需要训练的参数数量将是一个天文数字！很明显，这种全连接的形式非常费时，而且如此大量的参数会导致过拟合的问题。

神经元的3D结构：CNN利用了输入为图像的这个因素，它没有把图像拉成一个向量，而是直接拿来用。具体的说，CNN的输入有三个维度：图像的长宽高，高实际就是图像的颜色通道个数，对于灰度图像，高为1，彩色图像高为3，多光谱图像高为谱段数。比如，输入图像大小为32*32*3，那么CNN的输入也为32*32*3.另外CNN的输出也是一个3维的向量，比如一个10类的输出，CNN的输出就为1*1*10.下边为一个示意图：