作者:谢凌曦,清华大学CS博士,现就职于华为,擅长计算机视觉、自动机器学习。
回答:
按照规矩,先问是不是,再问为什么。
叫衰CV的声音已经持续很长时间了。在我刚入行(2009年)的时候,整个领域处于深度学习爆发的前夜,手中只有局部特征作为武器的研究者们,痛苦地挣扎在PASCAL-VOC检测准确率(AP50)30%-40%的基线上,而MS-COCO还有好几年才会出现。深度学习全面占领CV以后,这些数值都有了很大的增长。目前PASCAL-VOC的SOTA是85%+,而MS-COCO的SOTA已经被刷到了55%+(多模型融合能接近60%:Common Objects in Context)。
同时,我们相信资本是不会说慌的。从近年CV方向的就业情况看,至少资本对这个方向的短期未来还是有信心的。
目前(2020年)的情况很像十年以前,一个相对成熟的pipeline已经被发挥到了极致,而新的爆发尚未出现。每当这个时候,总会出现不少叫衰的声音。
然而我认为,这些声音中的绝大多数,不过是随波逐流罢了,他们的逻辑很容易被打破。就拿多数人喜欢强调的卷积神经网络(CNN)来说。质疑者们总是强调CNN只是单纯地堆砌算力、不具有可解释性——然而反过来说,仅仅是这样一个非常简单的计算模型,就让CV发展到了一个受到跨学科广泛关注的高度(CV算法已经渗透到各个领域),这难道不令人惊讶吗?我实在是很难相信在未来的10-20年,人类的智慧仅限于CNN及其变种,无法开发出更精巧的计算模型,进一步推动这个领域的发展。
当然我们也要冷静地看到,现在的CV算法离真正的AI还差得远。要想