1.采用了1*1的卷积投影使输入和输出的通道数一致
2.输出变成了f(g(x))+g(x)保证深层网络的梯度,不会因为连乘而导致梯度消失,训练起来比较快。
3.能有效降低模型复杂度,因为有了残差连接,深层网络直接失效也不会影响最后输出。
ResNet总结
最新推荐文章于 2022-07-22 09:58:20 发布
1.采用了1*1的卷积投影使输入和输出的通道数一致
2.输出变成了f(g(x))+g(x)保证深层网络的梯度,不会因为连乘而导致梯度消失,训练起来比较快。
3.能有效降低模型复杂度,因为有了残差连接,深层网络直接失效也不会影响最后输出。