《深度学习从0开始-CNN》

最新推荐文章于 2024-09-16 16:34:53 发布

VictoryZhou_

最新推荐文章于 2024-09-16 16:34:53 发布

阅读量144

点赞数

分类专栏： Python 文章标签：深度学习 cnn 神经网络

本文链接：https://blog.csdn.net/VictoryZhou_/article/details/128776767

版权

Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.卷积神经网络

1.互相关运算（cross-correlation)
输入 * 核函数 = 输出
$n_k \times n_w$ $k_h \times k_w$
输出： $(n_k - k_h + 1) \times (n_w - k_w + 1)$
2.填充padding 和步幅stride
padding
通常，如果添加 $p_h$ 行填充（大约一半在顶部，一半在底部）和 $p_w$ 列填充（左一半，右一半），则输出形状为： $(n_h - k_h + p_h + 1) \times (n_w - k_w + p_w + 1)$
许多情况下，设置 $p_h = k_h -1$ 和 $p_w = k_w - 1$ 使输入和输出具有相同的高度和宽度
pytorch 中 padding = ( $p_h /2$ , $p_w /2$ )
stride
通常，当垂直步幅为 $s_h$ ，水平步幅为 $s_w$ 时，输出形状为
$[(n_h - k_h + p_h + s_h) / s_h] \times [(n_w - k_w + p_w + s_w) / s_w]$

实践中通常 $p_h = p_w$ 和 $s_h = s_w$

3.多输入/多输出通道

多输入通道：
每个通道输入的二维张量和卷积核的二维张量进行互相关计算，再对通道求和得到二维张量
多输出通道：
(多输入通道的情况下）为每一个输出通道创建一个 $c_i \times k_h \times k_w$ 的卷积核张量，即卷积核的形状： $c_0 \times c_i \times k_h \times k_w$

4.汇聚层
减低卷积层对位置的敏感性，同时减低对空间降采样表示的敏感性
最大汇聚层 maximum pooling / 平均汇聚层 average pooling
填充、步幅、多个通道
5. LeNet
LetNet(-5)由两个部分组成：
卷积编码器：2个卷积层组成
全连接层密集块：3个全连接层组成