计算机视觉下哪个小方向目前更有发展前途？

最新推荐文章于 2025-03-23 20:44:31 发布

小白学视觉

最新推荐文章于 2025-03-23 20:44:31 发布

阅读量969

点赞数

文章标签：计算机视觉人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247607564&idx=3&sn=b702f53d84e314ea5bb4e463078d14e7&chksm=fb54c7e0cc234ef62145ecfbdbfdae1ce8dd35f404415e3dbc9130dc64d20ae73ecb10350c66&scene=126&sessionid=0

版权

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

编者荐语

知乎问题：计算机视觉（cv）下哪个小方向目前更有发展前途？计算机视觉方向越来越饱和，选个“好”方向可能越来越重要了。

转载自丨知乎

整理丨计算机视觉CV

链接丨https://www.zhihu.com/question/496500060

回答1

目前想到的有如下方向，排名不分先后，欢迎大家讨论。

自监督：以MAE，BEiT为代表的基于MASK方式的自监督训练策略在分类任务上取得明显提升。如何继续提升基于MASK的自监督性能和效率，以及如何把MAE相关工作拓展到其他任务上（比如检测，分割）应该后续会有不少工作。
多模态：CLIP证明了多模态预训练模型在多个任务上的显著的性能优势。后续基于CLIP出现了不少多模态或者视觉预训练模型，如何提升多模态预训练的性能和效率目前受到广泛关注。同时，如何把多模态预训练模型应用的下游任务也是不错的研究方向，现在已经有把CLIP应用到detection, segmentation，caption，VLN等。
3D：元宇宙（AR/VR）和自动驾驶最近非常火。与元宇宙相关的研究方向比如NERF，数字人等（比如talking face）。与自动驾驶相关的研究方向比如基于点云的检测/跟踪，点云+RGB多模态融合等
安全：模型鲁棒性，对抗攻击，防御等

回答2

序：作为一个长期从事计算机视觉工作的从业人员，也一直在进行计算机视觉底层算法研究。结合多年来的从业经历及科研经历，总结一下2021年计算机视觉领域的技术进展，同时对2022年计算机视觉的热门技术阐述个人的观点。

1. 工业界：对学术研究提出需求

2021年业界最火的两个概念：自动驾驶与元宇宙，这两个概念可能代表了未来一年甚至更久的一个行业走向。因此，工业界对学术界的需求在接下来一段时间大概率是基于自动驾驶与元宇宙的，这将是学术界的研究热点。分析自动驾驶及元宇宙的一些主要组件及底层技术，如图1所示。

图1 自动驾驶及元宇宙的主要组件及底层技术

可以推出学术界计算机视觉相关的研究热点如下：

（1）建图技术：三维重建技术，包括SLAM、定位、建图、更新等技术；

（2）点云理解技术：三维理解技术，包括点云检测、分割等技术；

（3）街景理解技术：街景图像视频识别、检测、分割等技术；

（4）三维渲染技术。

2. 学术界：自驱的学术研究

分析学术界的研究热点，这里重点以计算机视觉顶级会议CVPR 2021及ICCV 2021为例（2021年没有ECCV，相应的顶级期刊时效性可能没有会议快，因此均暂不分析），分析相应主题的论文接收情况。

CVPR 2021及ICCV 2021的关键字云图及对应文章数量如图2和图3所示。

图2 CVPR 2021（上）及ICCV 2021（下）关键云图

图3 CVPR 2021（左）及ICCV 2021（右）关键字对应文章数量排序（前50）

可以看出：

CVPR 2021前五的研究热点是：detection, 3d, segmegmentation, video, representation learning；
ICCV 2021前五的研究热点是：video, 3d, detection, segmentation, representation learning和transformer。

有个重点趋势可以发现：transformer相关文章从CVPR到ICCV不到半年时间增长非常明显（35篇->94篇）。

基于个人在计算机视觉领域的长期论文跟踪，2021年CV圈较火的研究点集中在两点：

基于transformer的应用问题（包括检测、分割、3D视觉等）；
基于self-supervised的应用问题，尤其是transformer。

相应地，计算机视觉在学术界自发(bottom-up)的研究热点可以总结如下：

（4）基于transformer的视觉技术：已有大一统的趋势；

（5）基于self-supervised的无标注视觉技术。

3. 总结一下

接下来的研究热点个人分析主要包括：

面向应用（工业界）：

（1）建图技术：三维重建技术，包括SLAM、定位、建图、更新等技术；

（2）点云理解技术：三维理解技术，包括点云检测、分割等技术；

（3）街景理解技术：街景图像视频识别、检测、分割等技术；

（4）三维渲染技术，

面向通用（学术界）：

（5）基于transformer的视觉技术：已有大一统的趋势；

（6）基于self-supervised的无标注视觉技术。

更细致的研究方向就要看个人的taste了，喜欢应用层的研究（工业界需求的）可以更多考虑1-4，喜欢底层研究（偏纯学术路线的）可以更多考虑5-6。如果是发文章的话，以上提到的方向是顶会文章最多的，是最近的研究热点，肯定是相对更容易发表的，但也意味着是竞争最大的，因为很多人都会朝着这几个方向努力。

关于更细分的方向可以直接选择以上其一，也可以将以上1-4与5-6排列组合，例如基于transformer的稀疏重建、基于self-supervised的街景目标跟踪等等。

实际上，计算机视觉每个方向深耕都可以做出不错的工作（例如小样本、多模态、增量学习等），并发表顶会顶刊文章，如果已经有明确自己钟爱且值得深入研究的课题请不要放弃，目前我们看到的热点很多其实最初也是1-2篇颠覆性的文章引领起来的，因此沉下心来做出真正有用有意义solid的工作，这比灌水N篇都值得赞赏。

回答3

这样说吧，方向根本无所谓，根本不用考虑现在，你毕业的时候也没多少招聘的会考虑。基础才是王道。数学，算法，编程能力，这三个就业来说，重要性倒着来。随便其中一个，也够你忙活了，而且是必须下苦工努力的，加油吧。

我硕士到工作到现在，图像识别，遥感3D建模，医疗图像，机器视觉方向，都有过“深刻而痛苦”的经历，上面三个基础好，其他就是经验和时间，非核心竞争力。

人不能把自己的路走窄了，可以先选定一个方向，以此为媒介打牢基础，但毕业之后，是不是做这个方向根本没关系。三个技能随便一个练到高处，你还不是横着走，想去哪儿去哪儿。

回答4

从身边做cv的同学今年找实习和工作情况来看，人脸方向的需求最大，找起来也更好找一些。不过最重要的还是打好基础，把常用的机器学习、深度学习方法自己推到实现一遍。不知道未来的趋势怎么样，反正今年cv方向还是很好找工作的。我们学院今年将要毕业的几个做cv的硕士被某大公司以40+的年薪打包带走了。

如有侵权请联系删除。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~