深度卷积神经网络 AlexNet

最新推荐文章于 2024-09-17 16:52:57 发布

ccdous

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量564

点赞数 10

分类专栏：深度学习文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/qq_58317297/article/details/140202578

版权

深度学习专栏收录该内容

55 篇文章 0 订阅

订阅专栏

一、机器学习深度学习的发展

1、机器学习SVM方法

（1）20世纪90年代，基于统计学习理论的结果，开发了一种新型的学习算法——支持向量机（SVM）。这就产生了一类新的理论上优雅的学习机器，它们将SVM的中心概念——内核用于许多....

（2）有一个核心是怎么样进行特征提取

（3）选择核函数来计算相关性，也就是判断在高维空间当中两个点是如何相关的

（4）如果是线性模型，就是做内积。如果是高维空间使用核方法的话可以通过变换空间把这个空间拉成一个想要的样子，然后通过核函数来计算后，就能形成一个凸优化问题

（5）老师提到了线性模型是一个凸优化问题，所以它有很好的理论结，可以得出显示解；因为是凸优化问题，所以有很好的定理，有一套完整的数学定理，能计算模型的复杂度，能计算在什么情况下会发生什么事情。

（6）Svm对调参没那么敏感,是深度学习神经网络之前最流行的机器学习算法

2、几何学

（1）思想：想要把整个计算机视觉的问题转化为几何学的问题

3、特征工程

（1）也就是对一张图片怎样去抽取它的特征。

（2）SIFT模型，抽取一些方向的向量来描述这个图片。如果特征向量抽取的好，可以使用一个简单的多分的模型（svm）进行分类

4、在计算机视觉领域，比较关心的是怎么样做一个更准确的特征提取，使得我们的机器学习能够比较好的去学习。所以整个计算机视觉，就是在针对不同的问题进行不同的特征提取。

二、发展史及流行方法

1、在90年代的时候，数据量不是特别大，计算也比较均匀，我们常用是神经网络，因为神经网络是一个比较便宜的框架，模型是比较小的，因为做了一个随机梯度下降，所以对内存的要求并不是特别高。

2、在00年左右，内存不错，CPU也不错，数据量有增加，但并不是特别大，核方法是一个更合适的方法。因为一它简单，二它有理论，第三是我们能够运行他（能够去把它的核矩阵给算出来，在这样的计算量下是比较好的）

3、目前我们又回到了神经网络，是因为计算量更多了（虽然数据没有涨得那么快，但是计算量已经比以前翻了许多倍，我们可以更多的去挖掘数据里面的信息，就可以构造更深的神经网络，用计算换取精度），我们可以构造更深的神经网络

4、计算能力和数据所要的算法能力，他们在不同阶段的发展程度，导致大家对网络的选取有不同的偏好

三、数据集

1、对于imagenet的数据集，它与之前的黑白数字数据集有一些样本数和类别的一些变化，所以允许使用更深的神经网络去抽取里面一些更复杂的信息

四、AlexNet算法

1、暂退法做一些模型的控制，因为模型更大了，所以使用暂退法来做一些模型的正则

2、relu与sigmoid的相比，relu在正值的梯度更大，梯度在正区间恒为1，在负区间为0，并且在零点的时候，relu的一阶导更好一点，Sigmoid 函数的导数在极值处（接近0或1）非常小，会导致梯度在反向传播过程中迅速衰减。

3、Maxpolling取得最大值，使得输出的值更大，也使得梯度更加的大，能使训练更加容易一些

4、在深度学习神经网络之前，也就是机器学习的svm，主要关注特征提取，机器视觉的专家，把对问题的理解转化为标准的机器学习的算法的数值；而现在与其说不用提特征，不如说是现在需要设计网络去提取特征了（机器学习，是专家去确定所需要的特征，再到svn里面去做分类。而深度学习神经网络是一起学习的过程，最后的分类器和特征提取是一起训练的过程；现在所使用的深度学习，我们构造卷积神经网络比在机器学习人工特征提取更为简单，并且容易应用于不同学科，更加高效）

五、AlexNet架构（与LeNet对比）

1、激活函数从sigmoid变为ReLu

2、隐藏、全连接层后加入了丢弃层做正则

3、数据增强（大概是在训练集中将样本做成了多许别的类别，比如截取、色温，加大学习难度）

六、总结

1、AlexNet的架构与LeNet相似，但使用了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。

2、今天，AlexNet已经被更有效的架构所超越，但它是从浅层网络到深层网络的关键一步。

3、尽管AlexNet的代码只比LeNet多出几行，但学术界花了很多年才接受深度学习这一概念，并应用其出色的实验结果。这也是由于缺乏有效的计算工具。

4、Dropout、ReLU和预处理是提升计算机视觉任务性能的其他关键步骤。

七、代码（跟LeNet差不多）

import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(
    # 这里使用一个11*11的更大窗口来捕捉对象。
    # 同时，步幅为4，以减少输出的高度和宽度。
    # 另外，输出通道的数目远大于LeNet
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 使用三个连续的卷积层和较小的卷积窗口。
    # 除了最后的卷积层，输出通道的数量进一步增加。
    # 在前两个卷积层之后，汇聚层不用于减少输入的高度和宽度
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Flatten(),
    # 这里，全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    # 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000
    nn.Linear(4096, 10))