为什么现在不看好 CV 方向了呢?

最新推荐文章于 2023-08-29 17:55:36 发布

喜欢打酱油的老鸟

最新推荐文章于 2023-08-29 17:55:36 发布

阅读量5.6k

点赞数 2

原文链接：https://www.zhihu.com/question/383486199

版权

人工智能专栏收录该内容

4206 篇文章

订阅专栏

作者：匿名用户
链接：https://www.zhihu.com/question/383486199/answer/1606619221
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

从一个cv内卷失败者的角度来聊一下。cv难的地方主要包含创新算法，模型底层加速和部署。前者就是各种大佬，既能够提出好的idea，又能够解决实现idea的各种问题，刚开始idea不一定work需要不断调整，另外很多东西没有现成的轮子需要自己实现。因此理论能力和工程能力都要具备。后者一般来说c++要够熟练，工程能力尤其是解决bug的能力要强，有些时候还要自己从底层写op，需要熟悉不同平台的指令优化等，这个过程同样需要强的理论功底来加快运算速度。这两方面的大佬真正的核心竞争力就是理论功底加工程能力，只不过不大重叠，不可替代性强。

我之前在实验室基本都是从github上扒模型，调整数据格式，训练一下然后用flask+gunicorn部署一下，可以说就是流水线式的工作，核心难点一个都解决不了。别说自己写很复杂的模型了，就是拿着一篇没有开源的论文我都复现不出来，很多自定义的op要写前传反传，其中的数学原理根本搞不明白。底层部署就更难了，移动端部署还要了解ios和android，有些模型还需要自己用c++把numpy的前处理和后处理代码转成C++，真是python一行，C++几十行。在美团实习才第一次接触了C++ tensorflow在tx2上面推断和处理视频流等。

秋招投的大厂可以说全军覆没，只有拿了某某的客户端开发岗，惨的一匹，怪自己太迟钝，暑期实习不顺的时候就应该果断换方向。

我最后去了一家国企搞图像算法这块，但是看着大家github+flask的标准流水线和丑陋原始卡顿的demo，我知道这种不上不下的工作不可能构成核心竞争力，这种产品不会有智障愿意花钱买的（也就糊弄糊弄领导，看着高大上，但其实就是工业垃圾），干十年和应届生不会有多大差别，反正都是底层的搞不了，上层的算法提不出来。

我建议要是有足够的理论基础和人脉成为算法大佬就努力成为算法大佬。否则，就全力去搞底层的东西，努力去学习模型部署加速这块，成为一个合格的算法工程师而不是算法搬运师。另外，普通人建议出去实习尤其是去那种真正面向实际应用的组实习。

编辑于 2020-12-02

作者：匿名用户
链接：https://www.zhihu.com/question/383486199/answer/1152839921
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

混毕业是个好方向，因为很多工业界的问题用CV去刷刷过拟合，比如检测水泥裂缝这种很不CS的方向，基本是降维打击传统的方法，灌点无关痛痒的SCI/EI还是没问题的。但是这种混过来的成绩，最好就不要去找CV方向的工作了，容易被吊打。业余时间灌点水混毕业，平时好好刷C++/Java和Leetcode, 毕业以后找开发方向的工作，是我最推荐的转行过来的人走的道路，也是学历有硬伤(双非)最容易走的路。

正经一点:

CV方向有很多没有解决的问题，coco的准确度上不去了就是一个典型的例子。要把准确度从50提到70，80，甚至到imagenet的水平，需要的可能是基础理论上的突破，而不是在网络上修修改改。但是研究者的能力是有限的，在CV方向的入门门槛被拉到初中生就能入门，github上拖个模型下来调调参就能获得很好成绩的现阶段，一个研究者要想从广大的调包侠基数中脱颖而出是很难的。很有可能到最后三年研究生毕业，才发现在洪水般泛滥的"CV从业者”中自己根本没有优势可言。

另外，CV的落地场景也很有限，虽然无人驾驶，人脸识别，工业机器人，医学图像检测等方向看似很广大，实际上近年来车企一蹶不振，无人驾驶这条路根本不好走。人脸识别已经快成为被解决的问题了，都已经大规模落地了。工业机器人和医学图像检测这种，也还处于造梦阶段，商业化还远着，工业界根本没有多少岗位。

总而言之，CV在现在处于门槛低，从业人数多，职业少的一个尴尬的位置，一边是大量的学生涌入，一边是不景气的经济环境和日益饱满的就业岗位。如果你的目标是就业而不是研究，那么我建议打好开发的地基，和一些项目代码加起来没到过1万行的所谓CV从业者划清界限。

发布于 2020-04-14

因为cv入行最容易，所以最内卷。

nlp还要学点分字分词语法分析啥的，数据清洗里面一堆trick。

语音更是mfcc怎么算都要学半天，完事一堆decoding。

RL先要学一堆policy value q啥的概念，然后里面一堆不足为外人道的trick，你不懂你的模型根本就不收敛。

只有cv会rgb就行了，lab都不需要的。。。

编辑于 2020-11-10

作者：谢流远
链接：https://www.zhihu.com/question/383486199/answer/1568812291
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

正常，我们这一代人特点就是干一行恨一行。做啥做久了，都觉得这个行业是烂的，但是同时又觉得未来潜力无限，我之前思考过如何理性评估行业的比烂指标，就是看看说行业烂的，和说行业未来潜力无限的两拨人，看这两拨人的(收入/影响力/资源)的比例，差异越大的，这个行业烂指数越大。

实话说，CV，NLP 还不到这个地步，只是这玩意和市场预期不符，导致市场收缩，挤掉很多泡沫，其实你问很多搞 CV，NLP 找不到工作的博士，他们大概率不会否认这个行业的未来，那些认为CV，NLP 大有可谓的博士，也不见得比黄赌毒推荐系统刷题硕士有钱，两极分化并不明显。

很多基础学科才是真的烂，比如搞生化棺材的，毕业的觉得行业还有希望，和行业没有希望的两拨人严重对立，掌握的话语权/财富的比值，我感觉几乎是10000000起步。

作者：纳米酱
链接：https://www.zhihu.com/question/383486199/answer/1568772391
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

作者：陈历飞
链接：https://www.zhihu.com/question/383486199/answer/1192004116
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

长期看好，短期谨慎。

随便翻开一个深度学习入门课程，你都会看到一个叫“手写数字识别”的项目——堪称人工智能领域的hello world。

调调CNN，跑跑ResNet，自我感觉良好，似乎每一个AI从业者，都可以是CV领域的带师。魔改一下model和loss，换个应用场景和benchmark，再加个时髦的Gan，一篇paper就呼之欲出了。

那为什么，会开始有人不看好现在的CV方向了呢?

个人认为，CV在科研领域依然在如火如荼的发展，但是在工业界，遇到了AI领域通病：落地难，不挣钱。CV领域的落地，我随便列举几个：

1、无人车

2、AR VR

3、内容理解

4、传统领域赋能（教育，安防，医疗。。。）

无人车领域是最重CV的方向，集结了大量CV人才。比如LZ提到CV的目标检测，就是无人车领域很实用的一个方向。然而，无人车还在发展初期，已经倒了很多，剩下的勒紧裤腰带，不可能招募太多人，要也是要的能突破关键技术的大牛，如果你不是赫赫有名的名校实验室学生，很难在竞争中脱颖而出。

AR, VR，和无人车一样，同样是在早期。同样的CV目标检测，可以去支持抖音上面各种时髦的特效……但然后呢？就算性能提升一倍，对这个商业模式、应用场景的影响也是有限，不能像广告、推荐能给公司带来直接量化的收益。公司需要考虑性价比，对抖音这样大公司尚且如此，小公司可能就直接上商汤API了，都不需要招CV的人。

内容理解，国外在这一块投入很大，但国内情况或许不一样。据说国内的每一条内容都有人工审核，人力便宜，直接上“真人工”智能了……

其他传统领域（教育，安防，医疗。。。），个人觉得核心价值是领域知识，政府关系，商业资源。。。CV技术？那只是锦上添花，讲一个好的故事提升估值。技术模型的提升？销售表示还不是靠他的嘴才有用。

综上所述，我并不是看衰CV，只是对想要跟风的CV新人提个醒，而真正的有志者并不会因此而被劝退。身为CV从业者，我依然相信这是一个很棒很有想象空间的好方向，一起共勉吧！

联动：

人工智能相关的岗位薪酬状况如何？www.zhihu.com

编辑于 2020-05-01

作者：谢凌曦
链接：https://www.zhihu.com/question/383486199/answer/1600986930
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

按照规矩，先问是不是，再问为什么。

叫衰CV的声音已经持续很长时间了。在我刚入行（2009年）的时候，整个领域处于深度学习爆发的前夜，手中只有局部特征作为武器的研究者们，痛苦地挣扎在PASCAL-VOC检测准确率（AP50）30%-40%的基线上，而MS-COCO还有好几年才会出现。深度学习全面占领CV以后，这些数值都有了很大的增长。目前PASCAL-VOC的SOTA是85%+，而MS-COCO的SOTA已经被刷到了55%+（多模型融合能接近60%：Common Objects in Context）。

同时，我们相信资本是不会说慌的。从近年CV方向的就业情况看，至少资本对这个方向的短期未来还是有信心的。目前（2020年）的情况很像十年以前，一个相对成熟的pipeline已经被发挥到了极致，而新的爆发尚未出现。每当这个时候，总会出现不少叫衰的声音。然而我认为，这些声音中的绝大多数，不过是随波逐流罢了，他们的逻辑很容易被打破。就拿多数人喜欢强调的卷积神经网络（CNN）来说。质疑者们总是强调CNN只是单纯地堆砌算力、不具有可解释性——然而反过来说，仅仅是这样一个非常简单的计算模型，就让CV发展到了一个受到跨学科广泛关注的高度（CV算法已经渗透到各个领域），这难道不令人惊讶吗？我实在是很难相信在未来的10-20年，人类的智慧仅限于CNN及其变种，无法开发出更精巧的计算模型，进一步推动这个领域的发展。

当然我们也要冷静地看到，现在的CV算法离真正的AI还差得远。要想解决落地困难的问题，从局部特征到深度学习这个级别的技术跳跃，至少还要发生两次。虽然它一定会发生，但没人知道下一次跳跃会在什么时间出现在什么方向。所以有的时候我会想：如果不是科研工作者，那么休眠20年再醒过来，直接享受AI发展的红利，一定是美事一桩。正是对改变未来的渴望，赋予了我们无限的想象力，当然还有无尽的烦恼。

最后说一个小趣事。2015年我刚开始做博后的时候，我曾经跟我的老板Alan Yuille闲聊。我说CV太难了，但是我想到两个可能的解决方案。一是人类彻底研究清楚了大脑的工作机制，仿照人脑设计出计算机，直接解决CV问题；二是人类搞定了量子计算，从而将所有可能出现的图像都学习一遍，强行记住所有答案。Alan表示，这两件事都不会发生，但是他的想法（compositional models）是可能实现的，于是就顺势跟我讨论了一个小时。不论是Alan还是我，都对CV的未来抱有切实的期望，也都试图以各自的努力，为这个领域做出一点点的改变。但愿这一天会到来吧。

发布于 2020-11-29

作者：叶小飞
链接：https://www.zhihu.com/question/383486199/answer/1665805091
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

作为一个在工业界做了三年CV的工程师和OPPO Reno初代超级夜景核心研发人员之一，我认为CV业界的行情可以用一句话概括：初学者遍地皆是，资深者企业难寻。

CV卷吗？很卷，如果你只是一个上过几门网课，做过几个学校项目就想进入该领域的初学者，或者你是一个入行几年，但是skillset停滞不前的工程师，那么你可能将会被卷得面目全非。CV卷吗？其实也没有到万径人踪灭的地步。对于那些已经入行数年，对方向把握较好，拥有全栈技能的工程师或者有着扎实基本功、一定实习/学术经验和对前沿算法有持续追踪的毕业生而言，在工业界里一定会有一席之地。所以想在CV这行混得风生水起，做出些成就，绝对是有迹可循的。

在这个回答里，我想讲一下CV内卷的原因、从业者怎样才能在卷中生存 以及我看好的CV/ML未來发展方向。

CV内卷的原因

任何一个行业内卷严重的根本原因都只有一个：狼多肉少。首先大家为什么都挤破脑袋想做CV呢？无非三个原因，第一，CV岗位的薪资确实可观。第二，CV岗位本身比一般的码农职位要有意思，有着浓烈的未来感。第三，CV在深度学习催化下门槛变低，受过一点训练的高中生都能在一小时里跑起一个Yolo做目标检测。很多人都会忽略，CV入门简单，但是做到高阶水准很难。

那么为什么岗位数量有限呢？我认为最根本的原因是CV本身给公司带来的直接利润有限。它更多时候是作为一个噱头，而不是主打。比如短视频平台虽然涉及大量人脸相关的CV技术，但是它赚钱的核心还是来基于内容推荐与用户互动。换句话说，如果CV就像普通的代码一样成为企业盈利必不可少的基石，那么我认为bar一定会大大降低。当然了，CV对无人汽车的确是刚需，但是别忘了，无人汽车现在本身就是在烧钱的状态啊！

从业者的出路

对于非博士学位的CV工程师来讲，最重要的核心技能一定是工程落地能力。算法再花哨，再state of the art, 如果不能落地，那么对公司来说价值就十分有限。很多算法落地的流程都是Python prototyping + C++ 部署模型，所以对C++的熟练掌握是非常重要的。部署模型时往往需要工程师对原始模型要先进行一系列优化（例如剪枝、蒸馏和量化），所以这就要求工程师对算法本身也要有较好的理解，要做到这一点，必然少不了扎实的数学基本功，和对前沿论文的实时追踪。最后还有一点非常重要却容易被工程师疏忽，那就是学会有效地和上级沟通，能够适时大胆地表现自己，很多事你不去讲，没有人会给予你特别的关注，一个会做演讲的工程师绝对不会混的太差。

在这里再总结一下我认为一流CV工程师应该具备的重要素养：

优异的Python与C++编程能力
对自己所接触的相关算法有透彻的理解
对前沿论文的追踪
不错的应用数学基础
良好的沟通、表现，演讲能力

CV/ML未来几年潜力方向

把这两个领域放在一起说，是因为它们俩其实是不分家的。随着5G时代的到来和短视频的兴起，在去年2月份时短视频月活已经超过了8亿，所以几乎可以用脚断定，最近几年国内各大巨头必定对视频理解、视频质量增强、视频压缩等视频方向继续加大研发投资，开始又一轮的竞赛。而对于之前大热的类似超级夜景这种图像质量增强、还有人脸识别等与face 相关的领域会到达瓶颈期，趋于成熟，各大巨头基本已经形成技术垄断。所以对于那些想入坑CV的新人或者想跳槽的有经验的工程师来说，选择视频方向不会有错。

而机器学习最近大火的一个方向是机器学习系统，我尤其看好联邦学习这个方向。除了去年NIPS上这方面的论文数量暴增之外，联邦学习良好的隐私性与可大规模分布性本身就是符合这个大数据时代的潮流的。除了联邦学习，AutoML 也会进一步完善合，各大公司也会开始在这一领域猛砸研发投资。由于联邦学习与AutoML还处于半成型阶段，这两个领域有着巨大的潜力可以挖掘，无论是学者还是工程师，在2021年开始入场两个领域可以有机会占得先机。

总结

其实对于CV领域从业者来说，我觉得最重要的永远是一个人的热爱， 祝愿在座的各位（包括我自己）在卷得面目全非之际，仍能不忘初心、保持一颗充满激情与斗志之心！

编辑于 01-07

作者：张龙
链接：https://www.zhihu.com/question/383486199/answer/1569173733
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

其实可能真的有很多人吹泡泡骗补贴烧热钱，但是这不是CV本身的问题，这些人就是干忽悠投资人这一行的。没有CV还会想其他的由头，只要政府想投什么他们就会干什么。而真正分析CV的劣端，还是要看CV技术本身。

CV的确很有很大的实用价值，但问题是有了深度学习后CV其实是一种破坏性创新，让成本直线下降到无利可图的地步。在深度学习之前的人脸识别，图片识别真的可能是有很大的市场的，但是技术不够吃不到。深度学习后需求都能实现了，但是蛋糕却缩小到原来的N分之一了。

为了说明这一点，让我举个例子，指纹识别。上世纪的FBI还在雇人专门用显微镜，放大镜对比指纹

1930年，联邦调查局身份识别部技术部门的指纹职员。https://www.onin.com/fp/fphistory.html

这些人的工资，福利，组成工会给雇主找的麻烦，一年下来折合成现在的美元少说有百万美元了。以下文章中的美金数字均指现在水平下的美元，而非100年前通胀前的美元。那个时候（1930年）说指纹识别每年至少有好几百万美元的市场，有问题吗？没问题啊，FBI已经每年一百万的掏出来了啊。这个时候如果你带一个随便1000块钱手机上的指纹识别方案访问穿越到90年前，尝试向FBI 1000万美元出售这个技术，当然我知道当时的电子水平有理论上的技术设备也造不出来，就假设零件你也都能供货。那从成本的角度来说FBI肯定会立即采用你的技术，爽快的把钱付了。但问题是，等到大规模自动指纹识别技术出现的时候，仪器加上研发的成本和用人来肉眼扫描怎么也会少非常多。又因为现在这个时候（2020年）指纹识别的成本的锚定对象早就不是和人比了，而是和其他的自动化仪器的竞争者，在其他竞争者靠着成熟模具，996工程师红利和开源代码几天能拿出来一套解决方案的时候，很少能有人再把指纹识别卖出高价。

同样的，如果告诉20年前的公共安全部门能人脸识别全国的逃犯，人变老了发型换了都依然鲁棒，准确率比人识别还高。想必他们肯定是愿意出高价的，毕竟如果用人力达到同样的效果那成本可能就是天文数字，这个天文数字也就是那些热血沸腾的人口中的“市场”。而在今天大家都知道拿github上模型一套就能达到差不多的效果，这项技术的实用价值虽然还是这么大，人们掏钱买这个东西的预算可能就缩水到预测市场的万分之一。最可能靠这个技术捞钱的时候就是技术方兴未艾，github上还没那么多干货，人的思想也没改变还下意识的拿自动化技术和人力成本来比的时候，这也是AI热潮初期那么多公司愿意出远高于开发的高价雇算法工程师的原因。可能一个技术的收益机会80%都集中在还没烂大街的几年，这个时候快一天拿出产品可能意味非常多。

没有行政门槛，充分竞争的行业，到最后每个生产者的收益扣除社会上普遍的机会成本（i.e. 保本型理财产品的利率）后都会无限趋向与零，价格也就几乎是成本。你搞一套CV模型的努力就是clone一个repo 运行以下，前后不超过2小时，再加上社会上能做这事情的人远大于需求，那能收到的薪水也就应该是2个小时的社会平均薪水，也就是几十块钱。加上一个普通摄像头，获客成本和沟通需求的时间，一个人脸识别系统就应该是几百块钱。一些算法工程师还拿着一个月几万，一年上百万的薪水，明显是不可持续的。盾构机价格被十几亿干到几千万，心脏支架从一万多干到几百块，如果要修的地铁总里程不变，需要心脏支架的手术数量不变，那市场就显然会缩水几十倍。人脸识别的各个功能都9.9包邮（并没有）了，这个时候人脸识别的市场能有多大?

这里主要讨论的是CV，但其实NLP和语音识别一个都跑不了。或者整个计算机行业的人都要面对这个问题。因为IT技术革新太快，传播的成本又几乎为零。为什么企业愿意给应届生开高薪，因为他们一直在学习最前沿的，还没完全普及的技术，为什么企业要裁员35岁的老人，因为他们的专业技能已经已经如同传呼机维修一样一钱不值了，而他们天天996也没有时间学习新的技能。20年前会VBA能进阿里巴巴，现在会VBA只能像鸡哥那样嘲讽老财。

@郑天玑

编辑于 2020-11-23

作者：金瀛若愚
链接：https://www.zhihu.com/question/383486199/answer/1573495408
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

CV(计算机视觉) 作为最火的人工智能领域之一，“被看好”其实只是最近七八年的事。而五年之前，研究CV的博士都很难找工作，可谓今非昔比。

我们站在群众的角度会发现，CV被看好往往是有人提出新方法，众人在旧问题上套用并取得进展的时候。这种时候往往新闻报导此起彼伏，给人一种繁荣的想象。当这个方法在旧问题上套用一遍后、新方法被提出前，群众就觉得CV要凉了。这样的剧情一直在重演，之前有ResNet，眼下有Transformer。很像股票大盘，跟着新闻涨涨跌跌，不断发生，不断被遗忘。

站在学者的角度，事情并不一样。在外界风评时好时坏的同时，核心学者的步伐并未改变。比如三位神经网络之父，冒天下之大不韪，死磕三十年。有幸AI火了，得到认可。目前CV领域的领军人物，40岁左右的，算起来也是从CV无人问津的时代走出来的。

站在政府和投资人的角度看，相比三四年前，CV的火热确实有所消退。主要原因是科研进展并没有预期那样神奇，一些领军机构展示过的蓝图未能全部兑现。但即使如此，CV依然是最被关注的领域之一。政策和资本在安防、健康、零售等方面的动作未曾停止，高校向国际会议投稿数量也逐年增加。

一位微软副总裁曾和我说，做事情不要只看眼下什么火。你要思考至少五年后人们需要什么，然后决定做什么。如果什么火做什么，那当你成为专家的时候，这个领域已经不再需要你了。

我觉得很有道理，并且继续思考了一段时间。我的总结，是要保持思考，并用平常心面对无常。无常是说外界的看好或看衰永远是变化的。平常心是指我们应该在噪音中尽量保持专注和平静。

以上。

编辑于 2020-11-14

作者：宝珠道人
链接：https://www.zhihu.com/question/383486199/answer/1190760008
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

首先说观点：长期来看，我看好CV方向。

我部分理解现阶段不看好CV的论调，并从我的角度尝试解释下为什么会有这个论调。

一、首先说为什么部分理解这个论调：

1. 做CV的门槛低，科研工作相对好做。有一块GPU就能做不少事，论文也相对好发，学术界和产业界从事CV相关科研的人口基数大且呈快速增长态势（特别是学术界），造成每年培养的研究生数量增长很快，就业岗位开始“僧多粥少”了。

2. 前些年人工智能（以CV为代表）的泡沫吹得太大了。不可否认人工智能实打实带来了技术和应用提升，但资本界和产业界特别是非计算机专业的人把牛皮吹太大了。前几年钱好拿时，大家自然快糙猛上，从去年开始进入冷静期了，又遇上今年的疫情，CV需求短期内下滑的阵痛难以避免。

3. CV在产业界虽然能够提升应用精度，但多体现为“锦上添花”而非“至关重要”。这也是为什么旷视、商汤等CV龙头企业在产业界一直不温不火的原因。还有待技术的进一步突破来打开产业应用的天花板。

二、再说为什么长期看好：

1. 人类超过80%的信息是从视觉系统接收的。试想一下，人若都是看不见的，社会生活中有多少现在能做的事情都变成做不了的。李飞飞教授在cs231n课程中也提到，人类区别于其它生物，能够进化到更高阶的一个重要原因是人类发展出了视觉系统。从这套进化逻辑来看，现在CV在社会生活中没有这么重要的地位，主要是现在的分析技术没有达到，而不是CV不重要。随着社会发展，技术终究会进步，CV的重要性不断提升是必然。

2. 科技从技术突破到广泛落地应用有其时间周期。最近十年，基于监督学习的深度学习技术在视觉目标检测上已经算取得突破性进展了，回看一下十年前的目标检测技术就会发现。现在这些技术，也已经能够实打实的提升部分医疗影像处理、人脸、工业视觉相关的应用，但从全面改变这些领域的应用范式的角度来看，还有相对较长的路要走，毕竟技术只是一个方面。此外，近年来半监督/非监督的深度学习技术也在快速发展，这些技术取得突破后，也会为技术的广泛落地应用打开更多扇窗口。总的来说，利用CV技术改变社会生活，是一个不可逆转的方向。

三、最后再提一点对CV方向新入行人的建议：

1. 学得更深入一点。不要只做调参侠，这个门槛真不高。现成的数据，现成的框架，跑个好的性能出来，真的不难也不构成核心竞争力。大家要扎实把基础打好，你会手写卷积等基本运算吗？你能把大网络的梯度传导计算一步步推出来吗？

2. 不要只想着深度学习，把图像处理及相关的基本功底打好。深度学习是一种效果相对有保障的方法，但是，它对数据和计算资源的要求比较高。社会生活中方方面面都存在不少可以通过CV技术改善的地方。首先好好分析具体问题，若是可以通过相对简单的方法解决，部署起来既稳定又便宜，为什么一定要上深度学习呢。

编辑于 2020-04-30

作者：匿名用户
链接：https://www.zhihu.com/question/383486199/answer/1242160376
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

经济基础决定上层建筑。

都说AI是风口，风口也分大小，风的起始点确实是能够为社会带来变革的技术突破，但风的大小和发展背后的助推器都是资本。

虽然学术界仍旧热情高涨，但是面对变现难的问题，投资人资本家不像以前那样买账了而已。或者说投资人的钱只有在风口中是好忽悠的，风口转变了，资本家的钱也转到别的地方了。资本是最没有耐心的。

拿卖饼来举例，个别科研人员发明了锅能够烙浓缩大饼，但是大饼得需要更多昂贵的面粉，油和六味真火，按照分成协议这些物资由有钱的资本家来买。由于烙饼方法发了论文也是开源的，其他科研和技术人员通过学习也会了，受到前人賺钱的鼓舞，纷纷加入烙饼大军中，甚至其他领域的人看到钱这么好挣也都联合该领域的技术人员转入烙饼大军。

但是这个浓缩大饼消耗的面和油是无底洞，太多了；当然资本家为了后面卖出去能有超额回本继续投钱。他们都希望赶上这波类似当年移动互联网的大回报，谁也不想措施良机，毕竟新闻里的人工智能比移动互联网更能变革社会，推动进步。

终于，耗巨资烙成了一两块，却发现吃着并没有想象的那么好吃，而且也没几个人卖。个别很聪明的资本家看清了现实收紧不继续投资烙饼了。其他资本家也明白过来，纷纷收紧投资。

最终就是，饼确实能烙出来了，就是不好吃没人买而已。

产能过剩，味道不如预期，物价降低，价格战，更没了预想的利润。

最后的结局是，谁能获得更多钱维持大饼生意的活下来，获得更多钱的路径其一是赶紧上市上岸，开拓更广阔融资，其二是转向游说政府，因为政府官员可没资本家精(或者说毕竟不是花自己的钱，也没必要那么精)。活下来的熬过去，继续等待外面开源更多的高效烙饼方法，升级自己的大锅，改变口味迎合大众。

如果是从賺钱的角度，那些创业者们的企业必定会死一大批，随着大潮加入的过剩技术人员们也会面临转方向。最后留下的是那些真的厉害能烙出香喷喷好卖的饼的企业，以及那些技术扎实不完全靠开源代码解决问题的技术人员。

上面说的都是工业届现状，其实学术界如果真的是怀着共同推动领域进步的心态，CV仍然是很好的研究方向，毕竟现在的轮子越来越圆滑加速度更快。

最后，经济基础决定上层建筑，也影响大众的内心。不看好CV方向的是资本家，作为相关领域技术从业人员，我们应该仍然看好，因为技术进步的更快，很多以前难以解决的任务从硬件软件层面都在为其解决提供可能。

最后补充一点，有人讲学术界点被刷的很高了，更难发论文了。点数高只能说明这个数据集的问题解决的好，但是其实现实应用还是很大鸿沟，如果这个时候能面向解决gap的角度挖新坑或者寻找新坑，一段时间内还是有很多论文会产生的。等这个数据集刷得差不多了，转向新的未解决的任务...这样不断进化，这个领域进步快的另一个因素

编辑于 2020-05-24

作者：立党
链接：https://www.zhihu.com/question/383486199/answer/1569032809
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

人人都在幻想“AI改变世界”，意淫出一个几万亿刀的市场，然后意淫自己是一个几百亿刀细分市场的老大，结果短期内能落地卖钱的，除了快手抖音滤镜特效，就是城市监控摄像头，要么就是人脸支付、人脸打卡、人脸这个那个……

全世界的产品经理绞尽脑汁，最后发现真金白银卖钱的市场就那么大，大部分startup能真正卖钱的，就是烧投资人的钱、烧风投的钱、烧国资委的钱、烧地方财政的钱、烧xx银行xx保险xx汽车xx人寿的钱，然后做一些溢价越来越低的拿各种开源tensorflow/pytorch抄来的外包活儿。

还有一群人做SoC上的inference框架，做各种小领域内千奇百怪的框架，有开源的有闭源的，有满腔热血从零做，也有抄来抄去自己只做了个PPT的——他们觉得从20fps提升到60fps就一定会有厂商来谈商业合作，然而最后能找到下家的很少。

还有一堆跟风做只能inference的ASIC/FPGA，除了做得最早的那一波直接被大厂收购（实际上是割了大厂几亿几十亿的韭菜，收购完了就没下文了），剩下的都是拿省级以下财政单位的钱或者各种二三线风投的钱，美其名曰“xx省优秀AI企业”，实际上做出来的东西真的没人用也没人买。

还有一堆做智能医疗的，各种魔改U-Net企图帮医生看片子——问题也没听说哪家医院真愿意买你们的玩意儿，医生看个病人15分钟，他自己还抽不出30秒钟看片子？

还有一堆做无人驾驶的，或者真正靠neural network卖滤镜卖出个热门app的，或者靠各种关系进入某个城市安防的小领域的，总之他们还在真金白银地赚钱或者未来能幸运存活下来的概率大于50%的……我只能说，他们真的很坚持很勇敢很努力也很幸运，respect。

还有一堆大公司，比如人脸支付、人脸解锁、人脸识别照片、各种滤镜、识别姿势、识别人脸的quaternion、识别手……他们的成功是基于他们之前成功的产品，这些model只是增加了一个锦上添花的feature，这叫大年三十逮兔子，有他过年，没他也过年。

大部分startup鸭子死了嘴硬也不愿意承认的一点，就是他们在CV领域卖不出去钱，大部分人压根就是割投资人的韭菜——他们中很多压根就没有客户，另一些有一些客户，但是每笔几万十几万的收入可能连炼丹实习生的工资都不够，还有一些估值很高憋着要上市，结果实际上P/E离谱，压根不能用正常人类的角度来理解他们的估值。

2017年左右，有人列了中国上百家“AI企业”名单，绝大多数都是做cv的，当时我写了个回答说，三年内不知道还能不能活下来1/3——现在看起来都太乐观了。

他们烧着风投的钱，烧着地方省市几亩几亩高价拍卖土地让年轻北漂们买房接盘的钱，烧着传统汽车/银行/粮油/地产/保险企业底层工人加班加点给投资部门省出来血汗钱——就为了圆一个大家都脑补出来的、巨大的泡沫。

编辑于 2020-11-11

作者：小文
链接：https://www.zhihu.com/question/383486199/answer/1590886648
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

按知乎的调调，先问是不是，再谈为什么。

先说结论，我并不觉得CV方向有什么问题。

为什么看好CV方向？

CV太重要了

>> 这实在没有太多好说的。CV对于智能，就像眼睛对于人类。在现有传感器没有根本性变革的时候，CV就还是那个CV。

CV要取得进步的地方太多了

>> 题主提到了COCO数据集的最好准确率。其实真正到应用里面，问题是很多的，到处都是问题，比如覆盖的场景、识别类别的精细化、极端场景（雨雪雾、过曝）；进入项目，还会有和其他信息的融合、多个不准确传感信息的融合；到落地，你甚至还需要考虑你的模型和计算平台的适配性，在分配的算力下跑不跑的起来。

>> 当然，现在的瓶颈是多方面的，比如搞自动驾驶，决策的人会说，感知不够啊，我的信息是不完全的，然后感知说，你的传感器就这么个水平，我总不能“看”的比原始数据还厉害了吧。你看，一层一层往上推，可以说CV决定了一个系统的上限。

>> 办法总比问题多，列了那么多问题，推导过来就一个结论，CV各个层次的人才其实都有需求。毕竟不是每个人都能成为CV首席科学家的，也没有必要。

CV是个实践活，请停下你的鄙视链

>>其实我个人的观感上来说，看到这样的问题，感受到的是从业者的自我标签化。非得是“XXX”才是根正苗红有脸有面的CV科学家/工程师吗？兢兢业业做传统视觉就是CV专家吗？做深度学习就是CV新时代小王子了吗？不要这样，科技发展的这么快，大家的知识储备都是不足的，一个一个项目干起来完善自己的知识版图才是王道。

CV的从业建议

进互联网大厂

>> 这当然是首选。

2. 进大公司

>> 大数据和人工智能这个大圈圈里的工作，最重要的是什么？是数据，是算力，而且不是一点点。大公司有数据（因为有业务，有体量），也可以有算力（因为有钱）。

3. 1&2之外，请选择有明确应用需求的公司

>> 需求驱动了技术，而不应该是手上拿着锤子，满世界寻找钉子。

>> 三年前，我经历了一段回国找工作的，约半年的调研期，林林总总的公司们也算看过了一遭，时至今日看回来，那些说着“我们有好多的数据，你来帮我们挖一挖看能挖出些什么的“团队，并不是一个好的选择。CV同理。

其实，各位CV研究者/从业者应该感到高兴的是，CV越来越成为人工智能领域从业者的一个通用技能，就像python/数据分析/机器学习越来越普及一样。

少一些标签，多一点内涵，2020了，还是务实比较靠谱。

发布于 2020-11-23

作者：齐国君
链接：https://www.zhihu.com/question/383486199/answer/1609219456
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

CV方向是不是不被看好呢？其实，这个问题10多年前就存在。那要搞清楚站在2020年底这个时间点，究竟还能不能看好CV，一个很重要的事情就是搞清楚现在CV 方向和10多年前，乃至20、30年前究竟有什么样的不同？

现在的CV 和 NLP等其他AI方向一样，已经不能孤立得来看待了。从产业生态的角度，CV是生长在一个更加庞大的产业链上的一环，而且可能是及其关键的一环。现在的CV向下有诸如Nvidia, AMD这样的通用 GPU设计和制造产业，及其之上的数据中心；同时建立了非常庞大的手机端AI芯片、边缘AI计算和云端AI服务器产业。

这些具体的算力基础设施的建立不是一夜建成的。其出现、发展和壮大必然有其存在的现实逻辑和对相关AI产业巨大预期，毕竟这些都是真金白银投入的，只有巨大的AI特别是CV产业才能支撑和合理化如此巨大的算力基础设施需求。从一个侧面也说明了，对CV为代表的AI产业是有真正的业务需求支撑的。

另外一方面，建筑在CV技术之上的，已经应用起来的人脸识别、身份认证、AI摄影，乃至未来的自动驾驶，都是CV技术的出口。虽然自动驾驶短期内可能难以大规模真正商用化，但随着新能源车的发展，辅助驾驶技术已经切实的在很多车型上进行了部署。罗马不是一天建成的，同样自动或辅助驾驶技术也需要通过不断打磨和迭代才能不断达到更高的水平，并被大家接受。这个过程，不管是高清地图、多传感器融合等都会对CV技术提出更高的要求。

而这个过程，CV技术本身也会不断迭代，从传统的基于摄像头的RGB数据，到点云数据等多传感器融合，乃至和控制算法的联合优化，都会对CV技术本身提出更高的要求和新的问题。

总结来说，巨大产业底座基础上的新一代CV技术已经不像10多年前那样是无根之木了；而随着新的应用场景的展开，必然对CV技术的研究对象、方法和场景提出新问题和新场景。只要 CV 技术本身能不固步自封，不断迭代打磨，必然会是整个AI 生态的重要和关键技术领域。

个人觉得现在不看好cv方向的人主要分为两种。

第一种：对cv领域期待太高的投资者，AI泡沫被一些始作俑者坑的太惨~

第二种：对竞争惨烈的cv领域望而却步的入门者~

社会上的每一个现象都有其深层次的原因~

1. 高期待。cv领域大火之后，确实极大程度上推进了感知智能的历史进程。但是由于媒体较高的关注度和或许是无意识的捧杀，也让大家都cv新技术对产业的正向改进能力有了过高的预估。

2. 增速放缓。当一个领域在学术前沿领域不再有突破性的进展时，一定会造成这个领域锻造的积累期，那些望而却步的人不泛油一些急功近利的考量，希望可以选择到将要爆发或者即将爆发的热门领域。

3. 就业。当一次学术突破对产业带来的改变有限的时候，当产品的升级对普罗大众带来的便利以及实用价值有限的时候，就会造成本领域就业竞争大，进而影响求学的人对这个领域的选择。当然，我是认为cv产学研的路上还有很大的潜力的~ 相信技术革新与产品革新就在不远的明天~

总之，cv是一个刚需领域，cv依旧有着极大的学术价值与潜力。多些脚踏实地者，少些急功急利，这个领域会发展的更好更快更强~

编辑于 2020-04-23

作者：安大叔
链接：https://www.zhihu.com/question/383486199/answer/1173287233
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。