点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
2022年8月27日,PhD Debate第十二期“底层视觉研究,我们应该往哪里走?”,特别邀请了苏黎世联邦理工大学梁经韵、中国科学院大学博士生刘翼豪、南洋理工大学博士生冯锐成和悉尼大学博士生顾津锦作为嘉宾,与大家一起探讨底层视觉研究,我们应该往哪走?
一、 Low-level Vision 中 Transformer 是未来的趋势吗?
二、 如何看待实验室的技术在真实场景下效果并不好的问题?有没有什么技术是有希望有助于解决落地问题的?
三、 如何看待底层视觉研究进入定式化的状态?还有哪些高价值问题值得我们探索?
四、 如何看待现在底层视觉的论文发表趋势?
Q1
Low-level Vision 中 Transformer
是未来的趋势吗?
最近Transformer很是热门,也有着很多高效的Transformer设计。Transformer对于low-level的应用有什么意义呢?毕竟模型又大又慢,部署起来还很困难。
顾津锦首先分享了自己的看法,他提出Transformer近期很是火爆,但是也不乏很多研究是跟风在做。Transformer确实是比CNN效果好,但是对于Low-level Vision的意义是什么?是其带来了和CNN完全不同的东西吗?
梁经韵认为Transformer可以理解为一种新的backbone,和卷积神经网络还是有一定区别的,相当于动态的卷积神经网络。感受也越好,也有利于获取更多的信息进而恢复更多的像素。眼下对于CNN的研究也停滞了很久,Transformer的效果相比之前的CNN要提升了很多,而且我们也可以利用其出色的表达能力去探明边界。
顾津锦对梁经韵的看法提出了自己的异议,Transformer是否只是一个边际marginal的提升,而不是之前人们期待的那样呢?
梁经韵认为Transformer提供给我们的其实是一种解释的思路,大部分思路都是通过学一个映射从低分辨率图像到高分辨率图像。现在还有些思路是从感受野入手,认为感受野较大带来的效果会比较好。他还提出,high-level方面不能用pixel做token可能是因为考虑到计算量,并且他们也