计算机视觉深度学习顶会_计算机视觉与深度学习

      计算机视觉(Computer Vision)又称为机器视觉(Machine Vision),顾名思义是一门“教”会计算机如何去“看”世界的学科。更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并在必要的时候给予合适的反馈(输出:比如看图说话,看视频说话)。 在机器学习大热的前景之下,计算机视觉与自然语言处理(Natural Language Process, NLP)及语音识别(Speech Recognition)并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图(Histogram of Gradient, HOG)以及尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)等传统的手工提取特征(Hand-Crafted Feature)与浅层模型(SVM,线性回归等)的组合逐渐转向了以卷积神经网络(Convolutional Neural Network, CNN)为代表的深度学习模型。     

c6d361f80099417a4b3a0c6a4e81a338.png

       传统的计算机视觉对待问题的解决方案基本上都是遵循:图像预处理 → 提取特征 → 建立模型(分类器/回归器) → 输出 的流程。

       而在深度学习中,大多问题都会采用端到端(End to End)的解决思路,即从输入到输出一气呵成。 

       计算机视觉的应用场景特别广泛,如街景地图、机器人、影视,工业控制等等,下图列出了更多的应用场景。

bdda8861e6faa499cb1c181d1fb0e6b4.png

 计算机视觉方向 

     计算机视觉包括了诸多不同的研究方向,比较基础和热门的几个方向主要包括了:物体识别和检测(Object Detection),语义分割(Semantic Segmentation),运动和跟踪(Motion & Tracking),三维重建(3D Reconstruction),视觉问答(Visual Question & Answering),动作识别(Action Recognition)等。

      下图分别代表目标检测、动作识别和视觉关系检测。后面两个的基础都是目标检测。因此目标检测是计算机视觉中非常基础且重要的一个研究方向。

f93c667782287c10bf1be88defde7872.png

目标检测简介

       目标检测,顾名思义,即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测(Face Detection),车辆检测(Viechle Detection)等细分类的检测算法。 

       数据集:IMAGENET,PASCAL VOC,MS COCO,Caltech

       代表性的算法主要有:R-CNN系列,YOLO系列。

语义分割简介

      语义分割是近年来非常热门的方向,简单来说,它其实可以看做一种特殊的分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出来。 很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以说是“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一个像素都有属于自己的类别。

0cda3b9b4f3d5ab3db785bd784b72ffe.pngc0fbd5c0950593b56bec5785f87ea5a4.png

运动和跟踪

       跟踪也属于计算机视觉领域内的基础问题之一,在近年来也得到了非常充足的发展,方法也由过去的非深度算法跨越向了深度学习算法,精度也越来越高,不过实时的深度学习跟踪算法精度一直难以提升,而精度非常高的跟踪算法的速度又十分之慢,因此在实际应用中也很难派上用场。 
         什么是跟踪呢?就目前而言,学术界对待跟踪的评判标准主要是在一段给定的视频中,在第一帧给出被跟踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中去寻找到被跟踪物体的位置,并适应各类光照变换,运动模糊以及表观的变化等。但实际上跟踪是一个不适定问题(ill posed problem),比如跟踪一辆车,如果从车的尾部开始跟踪,若是车辆在行进过程中表观发生了非常大的变化,如旋转了180度变成了侧面,那么现有的跟踪算法很大的可能性是跟踪不到的,因为它们的模型大多基于第一帧的学习,虽然在随后的跟踪过程中也会更新,但受限于训练样本过少,所以难以得到一个良好的跟踪模型,在被跟踪物体的表观发生巨大变化时,就难以适应了。所以,就目前而言,跟踪算不上是计算机视觉内特别热门的一个研究方向,很多算法都改进自检测或识别算法。 

热点

随着深度学习的快速发展,现在几乎所有人工智能方向的研究几乎都被深度学习占领了,传统方法已经很难见到了。并且,随着深度学习的发展,很多领域的现有数据集内的记录都在不断刷新,已经向人类记录步步紧逼,有的方面甚至已经超越了人类的识别能力。那么,下一步的研究热点到底会在什么方向呢?下面提供几个方面:

     1. 多模态研究:目前的许多领域还是仅仅停留在单一的模态上,如单一物体检测,物体识别等,而众所周知的是现实世界就是有多模态数据构成的,语音,图像,文字等等。VQA(视觉问答) 在近年来兴起的趋势可见,未来几年内,多模态的研究方向还是比较有前景的,如语音和图像结合,图像和文字结合,文字和语音结合等等。

     2.  数据生成:现在机器学习领域的许多数据还是由现实世界拍摄的视频及图片经过人工标注后用作于训练或测试数据的,标注人员的职业素养和经验,以及多人标注下的规则统一难度在一定程度上也直接影响了模型的最终结果。而利用深度模型自动生成数据已经成为了一个新的研究热点方向,如何使用算法来自动生成数据相信在未来一段时间内都是不错的研究热点。

   3. 无监督学习:人脑的在学习过程中有许多时间都是无监督(Un-supervised Learning)的,而现有的算法无论是检测也好识别也好,在训练上都是依赖于人工标注的有监督(Supervised Learning)。如何将机器学习从有监督学习转变向无监督学习,应该是一个比较有挑战性的研究方向,当然这里的无监督学习当然不是指简单的如聚类算法(Clustering)这样的无监督算法。而LeCun也曾说:如果将人工智能比喻作一块蛋糕的话,有监督学习只能算是蛋糕上的糖霜,而增强学习(Reinforce Learning)则是蛋糕上的樱桃,无监督学习才是真正蛋糕的本体。

计算机视觉的顶会ICCV:International Conference on Computer Vision,国际计算机视觉大会 CVPR:International Conference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别大会 ECCV:European Conference on Computer Vision,欧洲计算机视觉大会 除了顶会之外呢,还有顶刊。像 PAMI、IJCV,这些都是顶刊,它代表着这个领域里面最尖端最前沿以及当下的研究方向。

总结:

    当前,深度学习已经成为计算机视觉的主要方法。二者结合已经产生了很多的应用,未来仍将会给我们日常生活带来很大的影响。

附录:除此之外,还有很多其他方面的计算机视觉应用。 下面列出了几种:

    图像生成:这些人脸是由神经网络生成的,不是现实中的任何人脸。

420b3fe607997397879a4c486c91079a.png

    风格迁移:将一张图像的风格迁移到另外一张图上。

9759dc32928a54cc76bc657fdefd21d6.png

      超分辨率:将一张低分辨率的图像转化为一张高分辨率的图像。

1e4f827ca092022d736e42bd8a44d30e.png 

性别转换:

9e5ae30b5f677d1e54caec73fc11f45c.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值