理解感受野——感受野溢出会带来什么？如何指导网络设计？

蒸damn

已于 2025-04-07 12:43:13 修改

阅读量1k

点赞数 30

文章标签：人工智能

于 2025-04-07 12:42:27 首次发布

本文链接：https://blog.csdn.net/qq_73989746/article/details/147038357

版权

一、简单理解感受野：可以参考神经网络的直观理解：举例及比喻-CSDN博客第四部分

重申：

当某一层的感受野超过输入图像尺寸（如128×128）时，称为感受野溢出。此时，神经元可能覆盖到图像边缘外的填充区域（如零填充）。也就是两个矛盾：

理论需求：希望网络具备全局感知能力，避免局部偏见。

实际影响：引入无效计算（零填充区域无真实信息），增加参数冗余。

仍以手写数字识别为例、如果我们通过堆叠卷积核继续加深网络、我们会发现更大的网络似乎没有意义，也就是说此时加深网络似乎从感受野的角度来说似乎是盲目的？还会引入许多无用的噪声、增加参数量。

黑色边框为感受野溢出示意

这部分是因为手写数字识别的例子过于简单、在实现上也是通过LeNet这种简单的神经网络实现的。

覆盖原图就够了么？

*相同情况下更深的网络感受野更大。

*ResNet50采用了不一样的网络架构：瓶颈结构（bottleneck structure），这种结构在增加网络深度的同时，对感受野的扩张有一定影响。

1、有效感受野（ERF）：

传统感受野计算仅考虑理论覆盖范围，而有效感受野强调实际影响神经元激活的输入区域权重分布。研究表明：

有效感受野半径 Reff :σ为卷积层累积标准差，ε为贡献阈值（如0.01）。

图源网络

简单理解这是因为

如图：图像边框为我们计算的理论感受野theoretical RF 图源@CSDN Joney Feng

不同初始化方法和激活函数对越来越深的网络和有效感受野的影响不同、但都无法达不到理论感受野

结论：有效感受野的存在告诉我们：仅仅达到输入尺度的感受野是无法将全部输入作为有效输入的。

2、更大的感受野提供了特征组合机制

示例：在人脸检测中，浅层检测边缘，中层组合成眼睛、鼻子等部件，深层识别完整人脸。这种层级组合依赖逐渐扩大的感受野，以融合上下文信息。

随着网络深度增加，特征从局部到全局逐步组合：

结论：大感受野使模型理解图像整体结构，而非局限于局部细节。

四、如何平衡理论感受野（RF）和有效感受野（ERF）？

那是不是说，只有更复杂的、具有更高维特征的任务才需要相应加深网络深度、不断扩大感受野呢？是不是要设计相应深度的网络来匹配相应复杂度的特征学习任务呢？那是不是RF越大才能保证ERF越大？