神经网络与深度学习第三周课程总结

文章介绍了卷积神经网络的基础知识,包括TensorFlow和PyTorch这两个深度学习平台,以及神经网络的进化史。卷积、填充、步长和池化等概念也在文中被详细解释。此外,文章还展示了LeNet5的经典网络结构和PyTorch实现代码。
摘要由CSDN通过智能技术生成

本周主要讲解了卷积神经网络的基础知识,首先介绍了深度学习的平台,主要有TensorFlow和Pytorch。

TensorFlow是由Google开发的开源机器学习框架,它的目标是为机器学习和深度学习提供一个高效而灵活的平台。TensorFlow可以在多种平台上运行,包括CPU、GPU和TPU等,支持多种编程语言,如Python、C++和Java等。

以下是TensorFlow的一些特点和优势:

  1. 静态计算图:TensorFlow使用静态计算图,这意味着在运行过程中无法修改神经网络的结构。这使得TensorFlow的执行效率更高,同时也能够更好地支持分布式计算。
  2. 张量操作:TensorFlow提供了丰富的张量操作,这使得开发者可以方便地实现各种各样的神经网络结构。
  3. 自动求导:TensorFlow提供了自动求导功能,这使得开发者可以更轻松地实现反向传播算法。
  4. 大量的预训练模型:TensorFlow拥有大量的预训练模型,包括各种各样的卷积神经网络和循环神经网络,可以方便地进行迁移学习。
  5. 易用性和可扩展性:TensorFlow具有非常好的易用性和可扩展性,可以轻松地在大规模分布式计算环境中运行。
  6. 社区支持:TensorFlow拥有一个庞大的社区,拥有丰富的教程和资源,开发者可以轻松地获取帮助和学习。

PyTorch是一个基于Python的科学计算库,主要用于机器学习和深度学习任务,是深度学习框架中较为流行的一个。它由Facebook于2016年发布,并在不断更新和改进。PyTorch可以在GPU和CPU上运行,可以高效地处理大规模数据集和复杂的神经网络。

以下是PyTorch的一些特点和优势:

  1. 动态计算图:PyTorch使用动态计算图,这意味着在运行过程中可以修改神经网络的结构。这使得调试和试验非常容易,同时也提供了更高的灵活性。
  2. 张量操作:PyTorch提供了丰富的张量操作,这使得开发者可以方便地实现各种各样的神经网络结构。
  3. 自动求导:PyTorch提供了自动求导功能,这使得开发者可以更轻松地实现反向传播算法。
  4. 大量的预训练模型:PyTorch拥有大量的预训练模型,包括各种各样的卷积神经网络和循环神经网络,可以方便地进行迁移学习。
  5. 社区支持:PyTorch有一个庞大的社区,拥有丰富的教程和资源,开发者可以轻松地获取帮助和学习。

接下来介绍了神经网络的进化史:

  1. 早期的神经元模型(1943-1958年):神经网络最早的概念可以追溯到1943年,由Warren McCulloch和Walter Pitts提出的神经元模型。这个模型将人脑神经元的结构和功能模拟了出来,被认为是神经网络的起点。
  2. 感知器模型(1958-1969年):感知器是一种最早的神经网络模型,它由Frank Rosenblatt在1958年提出。感知器由多个输入节点和一个输出节点组成,可以用于分类任务。然而,感知器只能解决线性可分问题。
  3. 多层感知器模型(1970-1980年):为了解决感知器只能解决线性可分问题的限制,科学家开始尝试构建多层感知器模型,即多层神经网络。这些模型包括了多个隐层,能够解决更加复杂的问题。
  4. 反向传播算法(1980-1990年):1986年,David Rumelhart等人提出了反向传播算法,这个算法能够自动计算神经网络的权重和偏置,从而实现了神经网络的自动学习。
  5. 深度学习(2006年至今):深度学习是一种以深层神经网络为基础的机器学习技术,它利用多层次的非线性特征变换,可以处理大规模、高维度的数据集,目前已经在图像识别、语音识别、自然语言处理等领域取得了很大的进展。

接下来介绍了卷积神经网络中卷积、填充、步长、池化等的概念。

卷积是一种在数字信号处理和图像处理中常见的数学操作,它可以通过滑动一个小的窗口(也称为卷积核或滤波器)来提取信号或图像中的特征。在卷积神经网络(Convolutional Neural Network, CNN)中,卷积操作是非常重要的一部分,被用来从输入图像中提取特征,例如边缘、线条和纹理等等。

卷积操作的核心思想是将卷积核与输入图像进行逐元素相乘,然后将所有乘积相加得到一个标量值,作为输出的一个像素值。卷积核的大小通常比输入图像小,因此在进行卷积操作时,卷积核需要在输入图像上滑动,对每个位置进行卷积操作,从而得到一个输出的特征图。

在卷积神经网络中,通常会使用多个卷积核来提取不同的特征,并将它们的输出连接在一起形成一个更高维度的特征图。这些特征图将作为下一层的输入,并继续进行卷积操作,以提取更复杂的特征。卷积操作可以通过反向传播算法来优化卷积核的权重,从而使得卷积神经网络可以自动学习输入图像中的特征,从而实现对图像的分类、识别和分割等任务。

在卷积神经网络中,填充(Padding)是指在输入图像周围添加一定数量的像素,以便更好地处理边缘像素。填充可以让卷积操作在图像边缘处产生的信息损失减少,使得输出特征图与输入特征图的大小保持一致。卷积神经网络中通常使用两种填充方式:零填充和边界填充。

  1. 零填充(Zero Padding):在输入图像周围添加一圈像素值为零的像素,以扩展输入图像的大小。零填充常用于保持卷积层之间的特征图大小一致,这样可以更方便地进行后续的卷积操作和池化操作。
  2. 边界填充(Border Padding):在输入图像周围添加与边缘像素值相同的像素,以扩展输入图像的大小。边界填充通常用于保持输入和输出的特征图大小一致,以便在卷积神经网络的最后一层进行分类或回归等任务。

填充的大小通常由卷积核大小和步幅决定。当卷积核大小为奇数时,可以在输入图像的周围添加相同数量的填充像素,从而保持输出特征图的大小与输入特征图相同。当卷积核大小为偶数时,需要在输入图像的周围添加不同数量的填充像素,以保持输出特征图的大小与输入特征图相同。填充的大小可以通过调整卷积层的超参数来控制。

在卷积神经网络中,步长(Stride)是指卷积核在输入特征图上滑动的步长。步长的大小决定了输出特征图的大小和空间分辨率。

当步长为1时,卷积核每次移动一个像素,输出特征图的大小与输入特征图相同。当步长为2时,卷积核每次移动两个像素,输出特征图的大小通常是输入特征图大小的一半。步长的大小越大,输出特征图的大小就越小,但是它能够更快地减少特征图的大小,从而降低模型的复杂度。

在实际应用中,步长通常与填充一起使用,以控制输出特征图的大小和分辨率。使用较小的步长可以提高特征图的分辨率,但是会增加计算量和内存消耗;使用较大的步长可以减少计算量和内存消耗,但是会降低特征图的分辨率。因此,在设计卷积神经网络时,需要根据具体的应用场景和计算资源的限制,选择适当的步长大小。

在神经网络中,池化(pooling)是一种常用的操作,其主要目的是减小特征图的大小,同时提高模型的鲁棒性和泛化能力。

池化操作通常应用于卷积层输出的特征图上,它可以将特征图中某个区域内的像素值合并为一个值,从而降低特征图的空间分辨率。常见的池化操作包括最大池化(max pooling)和平均池化(average pooling)。

最大池化的操作是选取输入区域内的最大值作为输出,这样可以保留最明显的特征。而平均池化则是计算输入区域内像素值的平均值,并将该平均值作为输出。这种方式可以降低特征图中的噪声和冗余信息。

通常,池化操作在卷积层之后进行,它可以使特征图的大小减半,从而降低计算量和内存需求,同时也可以提高模型的鲁棒性和泛化能力。不过,过多的池化会导致信息的丢失,因此需要根据具体应用情况进行调整。

之后讲解了卷积神经网络的结构:

CNN主要由以下几个层组成:

  1. 卷积层(Convolutional layer):卷积层是CNN的核心层之一,它通过在输入数据上滑动一个卷积核(也称为滤波器),从而提取出输入数据中的特征。卷积核可以看作是一组可学习的参数,用于对输入数据进行卷积操作,从而得到输出特征图。
  2. 激活函数层(Activation layer):激活函数层对卷积层的输出进行非线性变换,以增强网络的表达能力。常用的激活函数包括ReLU、Sigmoid、Tanh等。
  3. 池化层(Pooling layer):池化层用于减小特征图的大小,并增强对输入数据的不变性。常用的池化操作包括最大池化(Max pooling)、平均池化(Average pooling)等。
  4. 全连接层(Fully connected layer):全连接层将卷积层输出的特征图拉成一维向量,并通过一系列全连接操作,最终将其映射到输出层,实现分类、回归等任务。
  5. Dropout层(Dropout layer):在训练过程中,为防止过拟合,可以添加Dropout层,随机地将一定比例的神经元输出置为0。

之后介绍了一下LeNet5的网络结构如下:

  1. 输入层:输入为32乘32的灰度图像。
  2. C1层:卷积层,使用6个5_5的卷积核对输入图像进行卷积操作,得到6个28_28的特征图。同时,每个特征图上的像素值经过sigmoid函数激活。
  3. S2层:池化层,对C1层的输出进行2_2的最大池化操作,将每个特征图的大小缩小一半,得到6个14_14的特征图。
  4. C3层:卷积层,使用16个5_5的卷积核对S2层的输出进行卷积操作,得到16个10_10的特征图。同时,每个特征图上的像素值经过sigmoid函数激活。
  5. S4层:池化层,对C3层的输出进行2_2的最大池化操作,将每个特征图的大小缩小一半,得到16个5_5的特征图。
  6. C5层:卷积层,使用120个5_5的卷积核对S4层的输出进行卷积操作,得到120个1_1的特征图。同时,每个特征图上的像素值经过sigmoid函数激活。
  7. F6层:全连接层,将C5层的120个特征图拉成一维向量,经过一系列全连接操作后,最终将其映射到10个输出节点,用于实现手写数字的分类。

使用pytorch实现LeNet5网络代码如下:

import torch
import torch.nn as nn

class LeNet5(nn.Module):
    def __init__(self):
        super(LeNet5, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.avgpool1 = nn.AvgPool2d(kernel_size=2, stride=2)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=16, kernel_size=5)
        self.avgpool2 = nn.AvgPool2d(kernel_size=2, stride=2)
        self.fc1 = nn.Linear(in_features=16*5*5, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=84)
        self.fc3 = nn.Linear(in_features=84, out_features=10)

    def forward(self, x):
        x = self.avgpool1(torch.relu(self.conv1(x)))
        x = self.avgpool2(torch.relu(self.conv2(x)))
        x = x.view(-1, 16*5*5)
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值