u2net 和u2netp 的具体区别-CSDN博客

本文链接：https://blog.csdn.net/buganything/article/details/141221959

U2Net和U2NetP是两种基于深度学习的图像分割模型，它们都使用了编码器-解码器架构和跳跃连接来提高分割的精度。然而，它们在网络结构和参数配置上存在一些差异。

初始化阶段的中间通道数 (mid_ch):
- U2Net: self.stage1 = RSU7(in_ch, 32, 64)
- U2NetP: self.stage1 = RSU7(in_ch, 16, 64)
后续各阶段的中间通道数:
- U2Net在每个RSU模块中使用不同的中间通道数，例如32, 64, 128, 256, 512等。
- U2NetP在所有RSU模块中使用相同的中间通道数16。
编码器阶段数:
- U2Net有7个编码器阶段（RSU7）。
- U2NetP有6个编码器阶段（RSU7, RSU6, RSU5, RSU4, RSU4F, RSU4F）。
解码器阶段数:
- U2Net有6个解码器阶段，与编码器阶段对应。
- U2NetP有5个解码器阶段，与编码器阶段对应，但最后两个阶段没有使用下采样。
下采样层 (nn.MaxPool2d):
- U2Net在除了最后两个阶段外的每个阶段之后都使用了下采样层。
- U2NetP在最后两个阶段没有使用下采样层。
解码器的对应关系:
- U2Net的解码器阶段与编码器阶段一一对应，使用相同的网络模块和参数。
- U2NetP的解码器阶段与编码器阶段一一对应，但参数配置简化。
侧边输出的卷积层 (side):
- U2Net使用了不同参数的卷积层，例如self.side1 = nn.Conv2d(64, out_ch, 3, padding=1)。
- U2NetP在所有侧边输出中使用了相同的卷积层参数self.side1 = nn.Conv2d(64, out_ch, 3, padding=1)。
输出层的通道数:
- U2Net的输出层self.outconv = nn.Conv2d(6 * out_ch, out_ch, 1)基于6个侧边输出的总和。
- U2NetP的输出层也是基于6个侧边输出的总和，但参数相同。
激活函数:
- 两个模型都使用了torch.sigmoid作为激活函数，但U2NetP在所有侧边输出上都使用了相同的激活函数。
模型输出:
- U2Net返回了7个经过sigmoid激活的输出。
- U2NetP也返回了7个经过sigmoid激活的输出，但参数配置简化。
模型复杂度:
- U2Net由于使用了更多的中间通道数和更多的编码器阶段，因此模型复杂度更高。
- U2NetP简化了参数配置，减少了模型复杂度。
适用场景:
- U2Net可能更适合对精度要求较高的场景。
- U2NetP由于模型简化，可能更适合对实时性要求较高的场景。