为什么现在不看好 CV 方向了呢?

作者:谢凌曦,清华大学CS博士,现就职于华为,擅长计算机视觉、自动机器学习。

回答:

按照规矩,先问是不是,再问为什么。

叫衰CV的声音已经持续很长时间了。在我刚入行(2009年)的时候,整个领域处于深度学习爆发的前夜,手中只有局部特征作为武器的研究者们,痛苦地挣扎在PASCAL-VOC检测准确率(AP50)30%-40%的基线上,而MS-COCO还有好几年才会出现。深度学习全面占领CV以后,这些数值都有了很大的增长。目前PASCAL-VOC的SOTA是85%+,而MS-COCO的SOTA已经被刷到了55%+(多模型融合能接近60%:Common Objects in Context)。

同时,我们相信资本是不会说慌的。从近年CV方向的就业情况看,至少资本对这个方向的短期未来还是有信心的。

目前(2020年)的情况很像十年以前,一个相对成熟的pipeline已经被发挥到了极致,而新的爆发尚未出现。每当这个时候,总会出现不少叫衰的声音。

然而我认为,这些声音中的绝大多数,不过是随波逐流罢了,他们的逻辑很容易被打破。就拿多数人喜欢强调的卷积神经网络(CNN)来说。质疑者们总是强调CNN只是单纯地堆砌算力、不具有可解释性——然而反过来说,仅仅是这样一个非常简单的计算模型,就让CV发展到了一个受到跨学科广泛关注的高度(CV算法已经渗透到各个领域),这难道不令人惊讶吗?我实在是很难相信在未来的10-20年,人类的智慧仅限于CNN及其变种,无法开发出更精巧的计算模型,进一步推动这个领域的发展。

当然我们也要冷静地看到,现在的CV算法离真正的AI还差得远。要想解决落地困难的问题,从局部特征到深度学习这个级别的技术跳跃,至少还要发生两次。虽然它一定会发生,但没人知道下一次跳跃会在什么时间出现在什么方向。所以有的时候我会想:如果不是科研工作者,那么休眠20年再醒过来,直接享受AI发展的红利,一定是美事一桩。正是对改变未来的渴望,赋予了我们无限的想象力,当然还有无尽的烦恼。

最后说一个小趣事。2015年我刚开始做博后的时候,我曾经跟我的老板Alan Yuille闲聊。我说CV太难了,但是我想到两个可能的解决方案。

一是人类彻底研究清楚了大脑的工作机制,仿照人脑设计出计算机,直接解决CV问题;

二是人类搞定了量子计算,从而将所有可能出现的图像都学习一遍,强行记住所有答案。

Alan表示,这两件事都不会发生,但是他的想法(compositional models)是可能实现的,于是就顺势跟我讨论了一个小时。不论是Alan还是我,都对CV的未来抱有切实的期望,也都试图以各自的努力,为这个领域做出一点点的改变。但愿这一天会到来吧。

谢流远(中科大CS专业,深度学习优秀回答者)

回答:

因为cv入行最容易,所以最内卷。

nlp还要学点分字分词语法分析啥的,数据清洗里面一堆trick。

语音更是mfcc怎么算都要学半天,完事一堆decoding。

RL先要学一堆policy value q啥的概念,然后里面一堆不足为外人道的trick,你不懂你的模型根本就不收敛。

只有cv会rgb就行了,lab都不需要的。。。

纳米酱(中科大理论物理转AI方向)

回答:

正常,我们这一代人特点就是干一行恨一行。做啥做久了,都觉得这个行业是烂的,但是同时又觉得未来潜力无限,我之前思考过如何理性评估行业的比烂指标,就是看看说行业烂的,和说行业未来潜力无限的两拨人,看这两拨人的(收入/影响力/资源)的比例,差异越大的,这个行业烂指数越大。

实话说,CV,NLP 还不到这个地步,只是这玩意和市场预期不符,导致市场收缩,挤掉很多泡沫,其实你问很多搞 CV,NLP 找不到工作的博士,他们大概率不会否认这个行业的未来,那些认为CV,NLP 大有可谓的博士,也不见得比黄赌毒推荐系统刷题硕士有钱,两极分化并不明显。

很多基础学科才是真的烂,比如搞生化棺材的,毕业的觉得行业还有希望,和行业没有希望的两拨人严重对立,掌握的话语权/财富的比值,我感觉几乎是10000000起步。

匿名用户回答:

混毕业是个好方向,因为很多工业界的问题用CV去刷刷过拟合,比如检测水泥裂缝这种很不CS的方向,基本是降维打击传统的方法,灌点无关痛痒的SCI/EI还是没问题的。

但是这种混过来的成绩,最好就不要去找CV方向的工作了,容易被吊打。业余时间灌点水混毕业,平时好好刷C++/Java和Leetcode, 毕业以后找开发方向的工作,是我最推荐的转行过来的人走的道路,也是学历有硬伤(双非)最容易走的路。

正经一点:

CV方向有很多没有解决的问题,coco的准确度上不去了就是一个典型的例子。要把准确度从50提到70,80,甚至到imagenet的水平,需要的可能是基础理论上的突破,而不是在网络上修修改改。

但是研究者的能力是有限的,在CV方向的入门门槛被拉到初中生就能入门,github上拖个模型下来调调参就能获得很好成绩的现阶段,一个研究者要想从广大的调包侠基数中脱颖而出是很难的。很有可能到最后三年研究生毕业,才发现在洪水般泛滥的"CV从业者”中自己根本没有优势可言。

另外,CV的落地场景也很有限,虽然无人驾驶,人脸识别,工业机器人,医学图像检测等方向看似很广大,实际上近年来车企一蹶不振,无人驾驶这条路根本不好走。人脸识别已经快成为被解决的问题了,都已经大规模落地了。工业机器人和医学图像检测这种,也还处于造梦阶段,商业化还远着,工业界根本没有多少岗位。

总而言之,CV在现在处于门槛低,从业人数多,职业少的一个尴尬的位置,一边是大量的学生涌入,一边是不景气的经济环境和日益饱满的就业岗位。如果你的目标是就业而不是研究,那么我建议打好开发的地基,和一些项目代码加起来没到过1万行的所谓CV从业者划清界限。

本文转自知乎问答,仅作学术分享,如有侵权请联系删除。

原文地址:

https://www.zhihu.com/question/383486199

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值