如何看待计算机视觉未来的走向?

最新推荐文章于 2024-06-21 09:40:51 发布

Wang_AI

最新推荐文章于 2024-06-21 09:40:51 发布

阅读量500

点赞数

文章标签：算法大数据机器学习人工智能 java

链接：https://www.zhihu.com/question/436846337

声明：仅做学术分享，侵删

计算机视觉伴随多个SOTA的完善和推进，已经进去深水区，各个论坛社区的毕业生和从业者都一片卷声，大呼卷的不行，各种劝退，认为NLP目前才是蓝海，是未来深度学习的自由之地。
那么实际情况是怎么样的呢？是因为CV对硬件有要求而NLP不需要硬件还是技术门槛过低，亦或是从业人员众多等。那么未来的深度学习应用应该朝哪个方向发力呢，才能做大蛋糕?

作者：谢凌曦

https://www.zhihu.com/question/436846337/answer/1655746348

我没看错吧？NLP是一片蓝海是自由之地？CV比较完善进入了深水区？一时间，我都不知道应该从哪个点开始吐槽了。

因为题主问到了CV和NLP的比较。如果一定要横向对比的话，那么CV和NLP长期以来是互相学习、互相赶超的关系。虽然同属于AI这个大领域，也同样具有不确定性因而概率类方法占据绝对优势，但两者的性质还是存在诸多不同。具体来说：

CV信号是天然存在的，而NLP信号是人类创造出来、用于存储知识的。因此，CV信号维度高、信息密度低，而NLP信号维度低、信息密度高。这就意味着在NLP信号上进行自监督学习更容易，也意味着要在CV信号上进行自监督学习，需要事先进行某种意义上的信息提纯。
CV信号描述了对象的细节，具有一定的冗余度，而NLP信号是对象的抽象化描述，具有一定的模糊性。CV信号是层次化的，而NLP信号是结构化的。这些明显的对比，意味着要想在CV和NLP领域产生初级技术应用，算法需要关注的点是不一样的。CV更关注特征的抽象和domain之间的迁移，而NLP更关注单词间的联系和消歧义，等等。

当前，CV和NLP面临的共同困难，都是标注信息的不完善——简单地说，人类提供的标签已经无法很好地指导学习过程，具体描述可以参考我昨天写的另一个回答：

目前计算机视觉中的很多自监督方法的下游任务用有监督分类的意义是什么？

这也就意味着，有监督学习的红利已经基本吃完，业界急需从无标签数据中获取迈向下一代人工智能的钥匙。虽然这把钥匙仍未找到，但是我们基本可以确定大规模上游预训练+小规模下游微调的套路。NLP已经部分走通了这条路——虽然现在的GPT-3被批评为只有记忆没有常识，但是长远看，这条路应该是通的；而CV也需要迎头赶上。

警告：以下是猜测

如果对CV的未来走向进行判断，我认为一种很可能发生情况是复刻NLP的轨迹，由大厂完成超大规模图像预训练模型，随后将模型release给广大开发者使用。这条路一旦走通，将会深远地改变当前CV的格局和开发模式。当然，对于广大开发者而言，适应新的算法并不困难，适应新的生态可能会有一定的挑战。

最后，谈到内卷的问题。内卷永远是存在的，只要大家认为这个领域的从业者的数量超过了它能够实际养活的数量。我对这个问题的看法是，CV在实际应用上的潜力远没有被发挥出来。如果更先进的技术路线能够达成，那么整个行业能养活的工程师数量一定会增加，到时候还会不会卷，就看会不会有更多人跳进这个坑里来了。

作者：韦仕才
https://www.zhihu.com/question/436846337/answer/1664879388

作为一名入门炼丹师我来谈谈我的观点。

首先关于卷的这个问题，我觉得并不仅仅是因为或者所很大程度不是因为说cv入门门槛低，或者深度学习入门门槛低啥的，好歹它还需一块1080ti+是吧。

看看隔壁的JAVA，那个真是有手就行（狗头），但是你看有人说开发岗卷吗？想必无数学长学姐都告诉过大家，遇事不决就学JAVA，或者再加点c++。

而大家，至少我应该是几乎没听过说JAVA开发岗一片红海找不到工作啥的，至多就是入职的996，35岁的中年危机。甚至我认识的人很多是深度学习搞不下去了，找不到工作了，半年速成JAVA去找了开发的工作。同样都是那么多人入门，甚至转开发和JAVA的人更多，为啥就深度学习一片红海，问题出在哪呢？

问题的核心其实在于供需失衡。

首先是供给方，注意深度学习的红利是真的曾经存在过的！！！，并不从一开始就是泡沫。在15-17年那会，前景看起来一片光明，学生们看到深度学习，计算机视觉带来的巨大福利，老师们看到这个东西好发文章，申项目，于是纷纷转向深度学习，计算机视觉。特别是随着深度学习框架的普及和硬件资源的不断升级, 深度学习的入门门槛越来越低, 两个月入门真的不是梦想。就连李飞飞，吴恩达，bengio，blabla等各路大神都纷纷离校创业或从业，所以大家没忍住诱惑走进了这个坑真怪不了什么，我也没忍住，毕竟那时候谁能想到会是现在这样，一切看起来都非常美好，智能时代仿佛近在眼前。但是现在在呢? 李飞飞又回到了斯坦福, 吴恩达开始去搞教育, bengio的公司或许将要贱卖（以低于融资成本的价格卖出），知乎上开始出现如何看待2019年算法岗一篇红海, 2020年算法岗灰飞烟灭, 而我前不久也还在吐槽如何看待深度学习复现难的问题。这中间发生了什么?

这就需要谈到需求方的问题。首先很明显的是目前公司对算法岗，深度学习需求并没有像大家所想象的那么大，不然也不至于出现现在大家所说的一片红海灰飞烟灭的问题。可是为什么呢？说好的工业4.0呢，说好的光明前景呢？这就要谈到另一个问题，什么决定了公司的需求？梦想？热爱？不，是利益，99.9%公司都是如此。剩下的0.1%也会慢慢变成如此。这里我想起了之前和师兄的聊天

我的一个博士师兄是工作之后才来读博的，他17年硕士毕业去了海信做图像算法，后来有一天我们一起回寝室，师兄突然说起还好辞职，不然现在海信大裁员指不定就裁到他了。我说你们不是做算法的吗，怎么会裁到你们。师兄说裁的就是研发部门…，也就是算法岗可能的来源。我当时心想，不应该啊，研发部门不应该都是像达摩院， FAIR这种，关乎一个公司能否把握未来机遇，抓住下一个风口的重要部门吗，怎么说裁就裁。师兄说，因为不挣钱啊，我们公司墙上挂满了各种专利，但是实际能用来产生效益的没几个。不是每一个公司都能有那么大的魄力和资金投入做自己的算法研发的。更多是用别人做好的接口开发产品。

而像阿里，旷视，商汤这种提供算法支持的不应该有很大的算法岗需求吗？为什么还是会卷。其实他们的需求也没那么大，原因还是一样的，计算机视觉，深度学习并没能带来大家所期望应用和盈利。说到这，其实大家眼里的眼里这些公司也不容易，也卷的不行，那么多公司就分人脸识别，智能安防等几个领域的蛋糕，而且技术壁垒也没有大到非某家不可的地步。而这归根到底就是现在深度学习，计算机视觉能落地的场景真的不多。

所以这就谈到第二点了，现在计算机视觉的瓶颈。以下观点更多是从算法落地角度考虑的，可能存在一些局限。

做过算法落地的人应该都深有体会，那些顶刊顶会上的sota算法，你用到实际场景里，如果不适用额外数据做微调，准确率掉一个30%到40%，再正常不过了。而且很多时候视任务的难易程度准确率从70%到85%甚至90%是可以靠数据堆出来的，但是再往上就没那么容易了。当然千万级别甚至更高数量级的数据那就另说了，毕竟人工智能人工智能，有多少人工就有多少智能。即使如此还会有极端情况存在你加数据可能都无法解决

研一那会跟着师兄参加过一个复杂环境下人脸检测识别挑战赛，做的就是监控视频下白天黑夜各种复杂场景下的人脸识别。大家一看人脸识别，这不是做烂了吗，还有什么好做的？我当时也这么想，师兄可能开始也这么想，然后师兄两年就花在了上面，后来表示非常后悔。当时的情况就是白天下还好，基本都能识别差不多，黑夜路灯下，准确率极剧降到了10%各种优化弄到20%就已经惨不忍睹了，就这还拿了第五名。前面的是一起参赛的还有大华，云从这些大厂，这里就说说大华，专业做安防的，他们最后黑夜环境下准确率大概是70%，而且这里还不确实他们是不是用了自己的数据，总之我们是没数据。

数据都不能解决，但还是要用，那怎么办，一般就只能限制场景，麻烦用户了。现在大家所能看到的落地应用多半是在一个尽量不影响用户体验的场景限制里，采集海量数据集，拟合一个模型然后使用。这个过程中真正起了大作用的，不是大家以为的那些sota模型，而是那些场景的约束和海量数据。以我做的活体检测为例，现在也有落地的应用了，阿里，小视科技，但是你们去用的时候它都会有请靠近远离摄像头让你距离摄像头的位置在指定距离，请保持静止blabla一些限制，甚至有时候我都已经在这个范围里还不给我检测，用的贼恶心。这些限制能不能不要？不行，因为不加这东西就解决不了。

紧接着上面就是关于计算机视觉的未来。我始终认为技术发展的终点就是产品，能够切实的落地影响或改变人们的生活，解决人们的实际需求。所以我一直觉得我今后会是一个工程师而不是科学家。而如果从这个角度看计算机视觉的未来那就是这样的。

我数据量不够的怎么办——小样本学习，迁移学习。

数据标注成本高怎么办——半监督，无监督。

我数据分布不均衡怎么办——长尾分布。

如何利用各种可能的数据来优化提高模型性能——多模态学习。

如何适应复杂场景（自然的，人为的）——深度学习的鲁棒性，泛化性研究，对抗学习。

算法出问题我怎么纠正和修改——深度学习可解释性问题。

我的模型怎么快速高效部署用于实际产品——机器学习系统，深度学习框架研究，模型压缩

作者：知乎用户
https://www.zhihu.com/question/436846337/answer/1650501514

在企业里从事三年多cv业务，感觉cv还是有很多东西没有解决，比如类别无关的检测问题，图像去模糊，画质评估，美学度量，以及和nlp的跨模态检索等。

由于cv开源的好项目很多，整体开箱可用率高，入门门槛低，前两三年入坑的人也比较多，导致现在内卷严重，这是实情，所以在招聘cv岗位的时候动辄要求发表几篇a类文章，竞争还是很激烈的。

加上今年经济形势严重，不挣钱的业务招聘名额会缩减，所以建议想从事cv的同事尽量挑选李业务线比较近的部门，比如阿里的电商部门。

关于nlp，现在算法几乎都是bert，transformer，关键看怎么抽象业务问题，由于nlp的落地比cv要好一点，所以nlp找工作确实比cv好找一点。但是nlp内卷也会越来越严重。至于长期cv的走向，可能还得跟学术的发展，可能跨模态检索最近会好过一点，cv一些问题用nlp的transformer可以解决，感觉cv和nlp有统一起来的趋势。

作者：知乎用户
https://www.zhihu.com/question/436846337/answer/1688862815

就互联网公司的而言，CV能提供的岗位数肯定远不及NLP。这是由学科的根本性质决定的。

互联网公司里，最重要、最耗费人力的事情是什么？是技术吗？当然不。搞技术关键是要靠聪明的头脑，而蛮力堆积是不行的。因此，公司的核心技术往往都是通过极少数关键的团队积累的，这种偏技术的团队能提供的岗位很少，对求职者能力要求很高，是我等茫茫众生可望不可即的。不要看招聘启示上都写的“研发工程师”，国内绝大多数公司也只是把别人现成的技术拿过来用，拥有真正的技术部门的寥寥无几。即使是像Google、Facebook这样的大公司，技术部门也只占很少的比例。

真正提供岗位的，还是做业务的部门。这种部门一般都是现成的技术拿过来用，虽然平时也会有一些相关的技术积累，但那也是有余力的个人或团队才能做的（一般这种团队里能有专利或论文发表，那绩效考核就可以拿到顶级的档次了）。那么对于做业务的团队，什么是核心呢？行内有个专业术语叫做“用户增长”，说白了其实就是蛊惑人心。人心是世界上最难测的东西，所以互联网公司才要花那么多时间、创造这么多岗位，进行各种AB实验、分层实验、用户分群实验......

那么同是蛊惑人心，为什么NLP的岗位就这么多，CV的岗位却屈指可数？这和两个学科的本质有关。目前CV的产出主要是感知智能，而NLP是认知智能。例如CV的两个经典任务——图像分类和目标检测就是存粹的感知智能任务。这种任务明确而纯粹，很容易做成成熟的解决方案，因此耗费不了多少人力。

而NLP任务主要是认知智能任务，其实从根源上就很有“摸透人心”的意味。现代语言学的奠基人索绪尔就指出过语言符号的任意性：语言符号和客观事物之间的联系是约定俗成的，是不需要存在任何逻辑的。NLP中许多问题也是非常模糊、非常主观的。例如：用户搜索“香蕉”，应该召回“香蕉味牛奶”吗（只考虑召回，不考虑排序）？这个问题在不同场景下有不同的答案，很难有一个通用的解决方案，公司需要雇许多人、做许多实验去摸透人心，也带来了工作岗位的增加。

作者：林风
https://www.zhihu.com/question/436846337/answer/1657702485

1.数据标注和数据复用的问题

未来的方向绝对是数据标注的问题，现在深度学习解决识别，检测，分割等问题已经足够好了，许多算法已经足够成熟! 但是，深度学习还是太依耐数据的标注了。而且，许多之前标注的数据，现在可能不太能用的上。

解决数据标注和数据复用的问题，可能就是迁移学习一直在做的事情吧。

而主动学习则偏重数据的选取的问题，毕竟数据标注也是有好坏之分的。

2. 深度学习的可解释性的问题。至今还没有非常好的解释回答

3. 深度学习中的负优化的问题。就比如人脸识别中的margin的问题，其实margin不是越大越好的

4.深度学习在移动平台部署的问题。说到底，还是深度学习的时间空间复杂度优化的问题。当然，模型压缩，模型剪枝，知识蒸馏等方面做的还行，但是发展空间仍然巨大!

5. 深度学习安全性的问题。安全性的问题不仅是个人关注的，也是国家关注的，这点主要就是对应于联邦学习和边缘计算吧

作者：爱因斯坦
https://www.zhihu.com/question/436846337/answer/1649646055

cv小菜鸡说下自己的看法。

对于普通从业者来说，CV卷分为在学校卷和在企业卷。在学校卷原因是这个玩意入门门槛低，好发论文，和哪个领域都能排列组合一下，导致做这个的老师变多，进而导致做这个的硕博变多；在企业卷是因为CV资本泡沫还是有一些，各大独角兽吸纳了大量CV人才，之后饼画不下去了，这些人就要一起竞争。NLP看卷不卷同理，我认为是要比CV好不少的，不过难保成为下一个卷起来的方向。

从未来应用角度，感觉CV目标是取代低端重复工作，NLP对应的则是取代人，有点强ai的意思，有点遥远，至少未来感觉CV还是要比NLP应用广阔很多的，无人车/医疗/工业/测绘/ARVR等。

不管是CV还是NLP，都是偏技术线，建议读个博士，或者发几篇顶会，搞这些一个很大好处是可以最大限度发挥自己的科研经历的优势。选择一个领域肯定要有做好的信心嘛，所以虽然CV卷了点，但如果能做好觉得在十年的短期内选CV还是好点的。

个人见解，如有错误还请指正哈

文末福利

各位猿们，还在为记不住API发愁吗，哈哈哈，最近发现了国外大师整理了一份Python代码速查表和Pycharm快捷键sheet，火爆国外，这里分享给大家。

这个是一份Python代码速查表