干货！底层视觉研究，我们应该往哪里走？

AITIME论道

于 2022-10-03 13:53:35 发布

阅读量1.3k

点赞数

文章标签：人工智能大数据算法编程语言 python

本文链接：https://blog.csdn.net/AITIME_HY/article/details/127158382

版权

2022年8月的PhD Debate探讨了底层视觉研究的热点问题，包括Transformer在Low-level Vision中的应用、技术落地的挑战、研究定式化以及论文发表趋势。嘉宾们指出Transformer虽带来性能提升，但在模型大小、部署难度和实际场景效果方面仍有待改善。此外，他们强调真实场景数据的重要性，以及如何在模型创新和工程应用之间找到平衡。

摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

2022年8月27日，PhD Debate第十二期“底层视觉研究，我们应该往哪里走？”，特别邀请了苏黎世联邦理工大学梁经韵、中国科学院大学博士生刘翼豪、南洋理工大学博士生冯锐成和悉尼大学博士生顾津锦作为嘉宾，与大家一起探讨底层视觉研究，我们应该往哪走？

一、 Low-level Vision 中 Transformer 是未来的趋势吗？

二、如何看待实验室的技术在真实场景下效果并不好的问题？有没有什么技术是有希望有助于解决落地问题的？

三、如何看待底层视觉研究进入定式化的状态？还有哪些高价值问题值得我们探索？

四、如何看待现在底层视觉的论文发表趋势？

Low-level Vision 中 Transformer

是未来的趋势吗？

最近Transformer很是热门，也有着很多高效的Transformer设计。Transformer对于low-level的应用有什么意义呢？毕竟模型又大又慢，部署起来还很困难。

顾津锦首先分享了自己的看法，他提出Transformer近期很是火爆，但是也不乏很多研究是跟风在做。Transformer确实是比CNN效果好，但是对于Low-level Vision的意义是什么？是其带来了和CNN完全不同的东西吗？

梁经韵认为Transformer可以理解为一种新的backbone，和卷积神经网络还是有一定区别的，相当于动态的卷积神经网络。感受也越好，也有利于获取更多的信息进而恢复更多的像素。眼下对于CNN的研究也停滞了很久，Transformer的效果相比之前的CNN要提升了很多，而且我们也可以利用其出色的表达能力去探明边界。

顾津锦对梁经韵的看法提出了自己的异议，Transformer是否只是一个边际marginal的提升，而不是之前人们期待的那样呢？

梁经韵认为Transformer提供给我们的其实是一种解释的思路，大部分思路都是通过学一个映射从低分辨率图像到高分辨率图像。现在还有些思路是从感受野入手，认为感受野较大带来的效果会比较好。他还提出，high-level方面不能用pixel做token可能是因为考虑到计算量，并且他们也