别魔改网络了，Google研究员：模型精度不高，是因为你的Resize方法不够好

极市平台

于 2021-11-23 16:42:39 发布

阅读量1.1k

点赞数 1

文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Extremevision/article/details/121496934

版权

作者丨小马
编辑丨极市平台
本文原创首发于极市平台公众号，转载请获得授权并标明出处。

【写在前面】

尽管近年来卷积神经网络很大地促进了计算机视觉的发展，但一个重要方面很少被关注：图像大小对被训练的任务的准确性的影响 。通常，输入图像的大小被调整到一个相对较小的空间分辨率(例如，224×224)，然后再进行训练和推理。这种调整大小的机制通常是固定的图像调整器（image resizer）（如：双行线插值）但是这些调整器是否限制了训练网络的任务性能呢？ 作者通过实验证明了典型的线性调整器可以被可学习的调整器取代，从而大大提高性能 。虽然经典的调整器通常会具备更好的小图像感知质量（即对人类识别图片更加友好），本文提出的可学习调整器不一定会具备更好的视觉质量，但能够提高CV任务的性能。

在不同的任务中，可学习的图像调整器与baseline视觉模型进行联合训练。这种可学习的基于cnn的调整器创建了机器友好的视觉操作，因此在不同的视觉任务中表现出了更好的性能 。作者使用ImageNet数据集来进行分类任务，实验中使用四种不同的baseline模型来学习不同的调整器，相比于baseline模型，使用本文提出的可学习调整器能够获得更高的性能提升。

背景

目前的resize方法一般都是已经设计好的，不可学习的，典型的有NEAREST，BILINEAR，BICUBIC。

我们先来看看这些resize算法的不同效果：

原图：

NEAREST：

BILINEAR：

BICUBIC：

可以看出，对人来说，不同的resize方法差别还是蛮大的。那么对于模型来说应该采用什么样的resize方法呢？为此，作为提出了采用可学习的resizer model来对图片进行resize，以进一步提高CV任务的性能。

1. 论文和代码地址

Learning to Resize Images for Computer Vision Tasks

论文地址：https://arxiv.org/abs/2103.09950

代码地址：未开源

全文链接：别魔改网络了，Google研究员：模型精度不高，是因为你的Resize方法不够好

关注极市平台公众号，获取最新CV干货。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。