深度学习中为什么模型输入大多是正方形图像?

导语

大多数深度学习模型(例如VGG,ResNet等)都需要正方形图像作为输入,通常像素大小为224x224。 输入的长宽必须相等是有原因的吗?还是可以建立一个100x200输入的卷积神经网络模型?更大的像素尺寸(例如512x512)会带来更多好处吗?

01

出于实用性的折衷

卷积神经网络不需要特定的像素尺寸即可正常运行。选择这些值是出于实用的原因:例如图像分辨率与参数数量和所需的训练集大小之间的折衷。毕竟,输入图像尺寸越大,模型的参数或者计算量也会随之上升。

02

方便获取ROI(感兴趣目标)

另外,如果数据集图片具有一系列不同的纵横比(比如肖像竖图、风景横图),考虑目标对象通常在中心,那么从中间采取方形作物是一个合理的方案。

03

图像分辨率的影响

当增加输入图像的大小时,还将增加网络处理该输入图像所需的噪声和数据变动。这可能意味着模型需要加入更多的网络层(比如卷积和池化),同时也可能意味着需要准备更多的训练数据。这将会增加训练模型所需的计算资源。当然如果可以接受这些代价,更高分辨率的图像一般会得到更好的模型。

关于是否需要更高分辨率的一个判断方法是:如果该任务领域的人类专家可以利用高分辨率图像来更好地完成任务,那么大尺寸图像输入是可取的。在回归系统中可能就是这种情况,比如在人脸识别系统中,高分辨率的图片保留更多的人脸特征,更容易对人进行判别,这类任务使用大图片是合适的。

END

扫码关注

获取最新AI资讯与实战案例

实用AI客栈

小编微信号 : langu86

 

 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

upDiff

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值