为什么深度学习图像分类里的图片的输入大小都是224*224呢？

最新推荐文章于 2025-03-21 21:01:26 发布

Miss_zhuo_

最新推荐文章于 2025-03-21 21:01:26 发布

阅读量1.6w

点赞数 18

原文链接：https://blog.csdn.net/hacker_long/article/details/88197520

版权

在论文中进行各类方法的比较时，要求使用同样的数据集。而为了公平的比较，网络的输入大小通常都是224*224的大小，那为什么呢？

我们都知道，一个图像分类模型，在图像中经历了下面的流程。

从输入image->卷积和池化->最后一层的feature map->全连接层->损失函数层softmax loss

从输入到最后一个卷积特征feature map，就是进行信息抽象的过程，然后就经过全连接层/全局池化层的变换进行分类了，这个feature map的大小，可以是3*3，5*5，7*7等等。在这些尺寸中，如果尺寸太小，那么信息就丢失太严重，如果尺寸太大，信息的抽象层次不够高，计算量也更大，所以7*7的大小是一个最好的平衡。

另一方面，图像从大分辨率降低到小分辨率，降低倍数通常是2的指数次方，所以图像的输入一定是7*2的指数次方。以ImageNet为代表的大多数分类数据集，图像的长宽在300分辨率左右。所以要找一个7*2的指数次方，并且在300左右的，其中7*2的4次方=7*16=112，7*2的5次方等于7*32=224，7*2的6次方=448，与300最接近的就是224了。

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。