计算机视觉未来方向与挑战

计算机视觉未来方向与挑战

计算机视觉(Computer Vision)的未来,就是多媒体 AI 崛起,机器之眼被慢慢打开的未来。多媒体有的时候又称为富媒体,是对图像、语音、动画和交互信息的统称。多媒体 AI 就是对这些所有内容的智能处理。一份国际报告显示,到 2021 年,视频将占全球个人互联网流量的比例,将从 15 年的 70% 增长到 82%,成为信息的主要载体。目前我们计算机视觉中心的工作重点,从以往单纯的图像转向视频 AI,研究视频的编辑、理解、分析和生成等。

  • 第一个方向是研究如何让 AI 理解视频中更深层、更细节的信息,分析视频里人物与人物间、人物与物体间,到物体与场景间的具体关系,这是业界热门且亟待突破的研究方向。
  • 第二个方向,不仅要研究视觉信号,还着眼于多模态信息,如计算机视觉加文本、加语音等信号的结合。比如视觉+文本上,我们的图像与视频描述生成技术已有一定进展。
  • 第三个方向是多媒体 AI 在垂直领域的应用。如在机器人领域,用视觉信息让 AI 感知周围世界,构建整个空间信息,进行导航和避障等操作。在医疗领域,分析医疗影像数据,结合病历文本信息等,让 AI 深入参与到辅助诊疗中。

这个领域的未来挑战,更多是对具体应用场景,比如安防、无人驾驶等难度大的具体应用场景,进行更细致规划和技术延伸。

腾讯 AI Lab 21 篇 CVPR 2018 录用论文详解 (sohu.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值