卷积(如果一点都不理解卷积看这一个)

深海潜水以凉末

已于 2025-05-05 17:23:28 修改

阅读量208

点赞数 4

分类专栏：深度学习文章标签：深度学习人工智能

于 2025-04-29 12:02:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56218077/article/details/147605564

版权

深度学习专栏收录该内容

23 篇文章

订阅专栏

(1)卷积到底是干什么的

卷积的本质是：

用一个小窗口（叫卷积核）在图片上扫来扫去，提取出局部特征。

特征，比如：

边缘（哪里明暗变化了）
角落（哪里是锐角/直角）
纹理（斜线/曲线的方向）
颜色变化、结构信息...

总结一句话：卷积是“放大有用的地方、抹去无用的地方”的一种“特征提取”手段！

(2)用一个生活中的比喻

想象你的图片是一大块披萨，
你拿着一个小小的放大镜（卷积核），
每次只看一小块披萨（比如3x3格子），
看里面有什么特别的花纹、材料，比如：

有芝士？
有香肠？
有蘑菇？

你每次观察（运算一次），记录下你看到的特征强度，
然后，放大镜往右边移动一点，再继续观察，记录。

观察完所有地方，就得到了一个新的小披萨（特征图），
这个小披萨专门突出你关心的特征，比如专门把芝士的区域亮出来！

(3)那么在Conv2d里是怎么做的

conv = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)

in_channels=3：输入是彩色图（3通道，RGB）
out_channels=16：要学16种不同特征（比如边缘、角落、纹理）
kernel_size=3：卷积核是3×3大小的小窗口
stride=1：每次移动1格
padding=1：四周补一圈0，让输出大小不变

效果：

原图进来 ➔ 用16个不同的小放大镜去扫一遍
每个放大镜学一个特定特征
输出16张新的特征图，每张图专门突出某种特征！

通俗理解：

Conv2d 就是帮你找到图片里不同种类的花纹、结构、形状！

(4)Conv2d特征提取，需要自己管吗

答案：

不需要自己手动提取特征！
只需要告诉 Conv2d：

输入有多少通道（RGB就是3）

想要提取多少种特征（即 out_channels）

剩下的事情（学什么特征，卷积核长什么样），
都是 神经网络通过学习自己搞定 的！

(5)那么卷积核一开始是随机的吗

答案：

一开始是随机的！

每个卷积核的参数（也就是小3×3矩阵里的数字），
在一开始建好 Conv2d 层的时候，
都会随机初始化成一堆小数，比如 0.01、-0.03、0.002 之类的。

为什么要随机？

如果一开始都一样，那学习就没区别了。
随机能让每个卷积核从不同角度去观察图片。

(6)那随机后卷积核是怎么变聪明的

靠训练！靠梯度下降！靠反向传播！

过程是这样的：

一开始卷积核是乱的，提取出来的特征也没什么意义。
神经网络拿提取到的特征去做分类（比如识别猫/狗）。
如果识别错了，根据误差（Loss）计算出每个卷积核该怎么修改。
用梯度下降算法，一点点调整卷积核里的小数值。
一次次训练后，卷积核越来越懂得提取有用的特征了！

最终：

有些卷积核学会了检测边缘
有些卷积核学会了检测角落
有些卷积核学会了检测纹理

卷积核就是网络自己学出来的，不需要人手写！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。