卷积神经网络

懒羊羊（学习中）

已于 2023-10-30 10:32:18 修改

阅读量435

点赞数

分类专栏：人工智能文章标签： cnn 人工智能神经网络

于 2023-10-30 10:29:11 首次发布

本文链接：https://blog.csdn.net/eldrida1/article/details/134056733

版权

人工智能专栏收录该内容

6 篇文章 0 订阅

订阅专栏

0、多层感知机

0.1、权重衰减

0.1.1 概念和用途

简单来说就是降低模型复杂度，防止出现过拟合。具体做法就是给损失函数增加一个penal项，当权重增加过大时，通过penal项提供惩罚降低权重。

0.1.2 公式和推导

penal项： $\frac{\lambda}{2} \left\|w\right\|^2$

新的loss函数： $L(w,b)=\frac{1}{n}\sum_{i=1}^n{\frac{1}{2}(w^Tx^{i}+b-y^i)^2}$

故需要最小化loss函数所得的随机梯度下降更新公式为： $w\leftarrow (1-\eta\lambda)w-\frac{\eta}{\left | \beta \right |}\sum_{i \in{\beta}}x^i(w^Tx^i+b-y^i)$

0.2、丢弃法（Dropout）

0.2.1 概念和用途

通过将输出项随机置0，另一部分随机增大来控制模型复杂度。丢弃概率是控制模型复杂度的超参数。

一、基本概念

1.1 平移不变性

指检测对象在输入X中的平移，仅导致隐藏表示H中的平移。也就是说，四阶权重张量V和表示偏置参数的U都不受（i，j）的影响，即 $[V]_{i,j,a,b}=[V]_{a,b}$ 。因此，定义H为： $[H]_{i,j}=u+\sum_a\sum_b[V]_{a,b}[X]_{i+a,j+b}$

由此减少了两个维度的系数。

1.2 局部性

为了收集用来训练 $[H]_{i,j}$ 的相关信息，不应偏离到距离（i，j）很远的地方。

这意味着在| $\alpha$ |>Δ或| $\beta$ |>Δ的范围之外，我们可以设置 $[V]_{a,b}=0$ ，因此，我们可以将 $[H]_{i,j}$ 重写为

$[H]_{i,j}=u+\sum_{a=-\Delta }^\Delta\sum_{b=-\Delta }^\Delta[V]_{a,b}[X]_{i+a,j+b}$

1.3 卷积层

即对普通的全连接层使用平移不变性和局部性得到卷积层。

Q：跟卷积有什么关系？

A: 卷积函数形式表示为： $(f*g)(n)=\sum_{\tau =-\infty}^\infty{f(\tau)g(n-\tau)}$ ，意思是先对g函数进行翻转，相当于在数轴上把g函数从右边褶到左边去，也就是卷积的“卷”的由来。

然后再把g函数平移到n，在这个位置对两个函数的对应点相乘，然后相加，这个过程是卷积的“积”的过程。

参考如何通俗易懂地解释卷积？ - 知乎的回答，将卷积层 $[H]_{i,j}=u+\sum_{a=-\Delta }^\Delta\sum_{b=-\Delta }^\Delta[V]_{a,b}[X]_{i+a,j+b}$ 通俗理解为：

使得权重张量 $[V]_{a,b}$ 根据不同像素坐标（a,b)实现在原来图像上的滑动。

二、填充和步幅

2.1 填充

2.1.1、问题背景

卷积层对输入和卷积核权重进行互相关运算，并在添加标量偏置之后产生输出。而当卷积核形状较大或者图像输入形状较小时，例如当图像输入时32×32，而卷积核形状为5×5，则深度学习模型层数最多为7层，难以达到预期效果。

解释：

输入图像： $n_h \times n_w$

卷积核： $k_h \times k_w$

输出： $(n_h-k_h+1)\times(n_w-k_w+1)$

2.1.2 思路

在输入周围添加额外的行/列，从而不改变输出的大小。具体做法就是填充 p_h=k_h-1 行和 p_w=k_w-1 列。

2.2 步幅

2.2.1、问题背景

当输入很大时需要大量计算才能得到较小输出。例如输入大小为224×224，但卷积核为5×5时，选哟44层才能将输入降低到4×4。

2.2.2 思路

控制卷积核在输入图像上滑动的步幅，成倍地减小输出形状，例如当步幅分别为 s_h 和 s_w 时，输出形状为：

三、卷积层的多输入多输出通道

3.1 多输入通道

3.1.1 背景

输入图片多为彩色图像，而彩色图像具有标准的RGB通道来代表红、绿和蓝。因此每个RGB输入图像具有3×ℎ×w的形状，将这个大小为3的轴称为通道（channel）维度。

3.1.2 计算方式

如下：

3.2 多输出通道

3.2.1 背景

每个通道都向后续层提供一组空间化的学习特征，意思就是说可以将每个通道看作对不同特征的响应，例如在靠近输入的底层，一些通道专门识别边缘，而一些通道专门识别纹理。

3.2.2 计算方式

每个核生成一个输出通道。

输入X： $c_i\times n_h\times n_w$

核W： $c_o\times c_i\times k_h\times k_w$

输出Y： $c_o\times m_h \times m_w$

最终输出多个通道 $Y_{i,...}=X\ast W{i..}$

3.3 1 × 1卷积层

1×1卷积失去了卷积层的特有能力——在高度和宽度维度上，识别相邻元素间相互作用的能力，1×1卷积的唯一计算发生在通道上。因此以将1×1卷积层看作在每个像素位置应用的全连接层，以 c_i 个输入值转换为 c_o 个输出值。

四、汇聚层

4.1 概述

4.1.1 问题背景

降低卷积层对位置的敏感性，同时降低对空间降采样表示的敏感性。

4.1.2 特点

输出通道数=输入通道数，即不对多个输入通道进行合并操作，交给卷积层做。
仍可使用填充和步幅
不包含参数

4.1.3 最大池化层

输出每个窗口中最强的模式信号，可用来确定边界。

4.1.4 平均池化层

输出每个窗口中平均的模式信号

懒羊羊（学习中）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络

降低卷积层对位置的敏感性，同时降低对空间降采样表示的敏感性。
复制链接

扫一扫

专栏目录