为什么深度学习图像分类的输入多是224*224

喜欢打酱油的老鸟

于 2019-06-24 08:19:55 发布

阅读量5.5k

点赞数 4

文章标签：为什么深度学习图像分类的输入多是224*224

人工智能专栏收录该内容

4206 篇文章

订阅专栏

https://www.toutiao.com/a6702959853393936909/

做过图像分类项目或者看过文章的小伙伴们应该都知道，在论文中进行各类方法的比较时，要求使用同样的数据集。而为了公平的比较，网络的输入大小通常都是224*224的大小，那为什么呢？有同学思考过这个问题吗？

我们都知道，一个图像分类模型，在图像中经历了下面的流程。

从输入image->卷积和池化->最后一层的feature map->全连接层->损失函数层softmax loss。

「AI-1000问」为什么深度学习图像分类的输入多是224*224

从输入到最后一个卷积特征feature map，就是进行信息抽象的过程，然后就经过全连接层/全局池化层的变换进行分类了，这个feature map的大小，可以是3*3，5*5，7*7等等。

解答1：在这些尺寸中，如果尺寸太小，那么信息就丢失太严重，如果尺寸太大，信息的抽象层次不够高，计算量也更大，所以7*7的大小是一个最好的平衡。

另一方面，图像从大分辨率降低到小分辨率，降低倍数通常是2的指数次方，所以图像的输入一定是7*2的指数次方。以ImageNet为代表的大多数分类数据集，图像的长宽在300分辨率左右。

解答2：所以要找一个7*2的指数次方，并且在300左右的，其中7*2的4次方=7*16=112，7*2的5次方等于7*32=224，7*2的6次方=448，与300最接近的就是224了。

这就是最重要的原因了，当然了对于实际的项目来说，有的不需要这么大的分辨率，比如手写数字识别MNIST就用28*28，有的要更大，比如细粒度分类。

今天的问题就到这里了，不知道，你有没有留意过不同的输入大小对分类器性能的影响呢？

喜欢打酱油的老鸟

博客等级

码龄7年

博客专家认证

1423
原创

5937
点赞

3万+
收藏

6663
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

SAP MM 带有Return标记的STO,不能创建内向交货单？
何敬帅: 步骤23的顺序可以反嘛？正常不应该是先退出去然后供应商才能收回来嘛
为什么我觉得Python烂的要死？
yh52052sb: 哈哈哈，在网上搜python好像不用{},第一个就是你这个文章诶，菜鸟路过，听不懂思密达
CIIS 2020专题论坛丨突破自然语言理解，找到人工智能出口
m0_59260274: 中国人早已在自然语言真正理解研究上取得重大突破原创 wangda红冰金话网 2025年02月26日 15:34 福建 1人黄培红，高级工程师，中国人工智能学会会员，发表学术论文10余篇，发现自然语言加工中的what-why理解效应，解决了作为人工智能核心的自然语言理解问题，取得世界级研究成果，应邀先后在ICIS2017与IWACIII2017国际会议上做学术报告及交流讨论。黄培红从事计算机工程技术工作30多年，曾研发并投产成功某银行第一个中间业务软件。他早年毕业于北京航空航天大学计算机科学与工程系，发表论文《自然语言理解的机器认知形式系统》，在什么是理解以及什么是自然语言理解方面研究取得原创性研究成果，解决了人工智能方面的世界性难题。其研究论文通过多模态关联解决自然语言理解问题，在世界范围引起互联网公司及学术界广泛关注，特别是近年来多模态语义理解已经成为人工智能的研究热点。目前chatgpt deepseek等等语言大模型都在往这个研究上靠，请周知。
SAP 金属行业实施项目的GAP之Metall Balance
georgefan2008: 截图为啥如此模糊呢，能分享一下报表的具体的设计思路吗，谢谢！
SAP QM 事务代码QA02取消以及反取消检验批
Jing--TuTu: 老师您好，发货单已经删掉，检验批的【取消批】按钮变成灰色，还有其他办法取消检验批吗

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。