计算机视觉未来走向：视频理解等5大趋势详解

智源社区

于 2021-04-08 17:40:00 发布

阅读量924

点赞数

文章标签：神经网络计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/115535458

版权

本文探讨了计算机视觉（CV）与深度学习（DL）的未来发展，包括从Learning-based CV转向CV-based Learning，从清洁场景到复杂环境的应用，从单帧处理到序列分析，从通用预训练到特定任务预训练，以及从隐式学习到学习友好的CV任务。作者提出，未来的CV+DL将更加注重结合视觉原理，应对真实世界的挑战，以及设计更适合神经网络学习的任务表示。

摘要由CSDN通过智能技术生成

作者：廖康，北京交通大学信息科学研究所

校对：梦佳

智源导读：近年来，深度学习在各种计算机视觉任务上都取得了重大的突破，其中一个重要因素就是其强大的非线性表示能力，能够理解图像更深层次的信息。本文针对CV+Deep Learning未来的走向进行了展望，其中包括CV与Learning之间的关系、CV面向不同场景以及Learning面向不同场景等多方面的延展。（本文系智源社区成员投稿）

01

「Learning-based CV」to 「CV-based Learning」

得益于神经网络较强的学习能力，很多视觉任务都被丢入一个黑盒中，然而神经网络直接从像素上对场景进行感知是不够的。对于具体的任务，我们需要利用CV中的原理和技术点对其进行解剖和建模，然后再利用深度学习中的网络架构/工具进行相应的特征提取与任务决策。

这里举个例子，CV中有一个很具有挑战性的任务是3D from Monocular Vision，即从单目图像进行三维重建与感知。目前很多方案都是通过强监督学习方式直接对深度信息进行预测或者直接在2D图像上进行3D任务。

在计算机视觉中，我们知道，从三维世界坐标系到二维相机坐标系是经过了一个透视变换的，因此不同深度的物体才被投影到了同一个平

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。