来源:机器之心
本文长度为5000字,建议阅读7分钟
为你分享一份2016至2017年计算机视觉领域的研究成果。
The M Tank编辑了一份报告《A Year in Computer Vision》,记录了2016至2017年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中我们对第一部分做了编译介绍:
内容目录
简介
第一部分
-
分类/定位
-
目标检测
-
目标追踪
第二部分
-
分割
-
超分辨率、风格迁移、着色
-
动作识别
第三部分
-
3D 目标
-
人体姿势估计
-
3D 重建
-
其他未分类 3D
-
总结
第四部分
-
卷积架构
-
数据集
-
不可分类的其他材料与有趣趋势
结论
完整PDF地址:
http://www.themtank.org/pdfs/AYearofComputerVisionPDF.pdf
简介
计算机视觉是关于研究机器视觉能力的学科,或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估,英国机器视觉协会(BMVA)将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。
对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说,是视觉线索通过视觉神经传输到主视觉皮层,然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验,即进化如何令我们生存下来,以及我们如何在一生中对世界进行学习和理解。
从这方面来说,视觉过程仅仅是传输图像并进行解释的过程,然而从计算的角度看,图像其实更接近思想或认知,涉及大脑的大量功能。因此,由于跨领域特性很显著,很多人认为计算机视觉是对视觉环境和其中语境的真实理解,并将引领我们实现强人工智能。
不过,我们目前仍然处于这个领域发展的胚胎期。这篇文章的目的在于阐明 2016 至 2017 年计算机视觉最主要的进步,以及这些进步对实际应用的促进。
为简单起见,这篇文章将仅限于基本的定义,并会省略很多内容,特别是关于各种卷积神经网络的设计架构等方面。
这里推荐一些学习资料,其中前两个适用与初学者快速打好基础,后两个可以作为进阶学习:
-
Andrej Karpathy:「What a Deep Neural Network thinks about your #selfie」,这是理解 CNN 的应用和设计功能的最好文章 [4]。
-
Quora:「what is a convolutional neural network?」,解释清晰明了,尤其适合初学者 [5]。
-
CS231n: Convolutional Neural Networks for Visual Recognition,斯坦福大学课程,是进阶学习的绝佳资源 [6]。
-
Deep Learning(Goodfellow,Bengio&Courville,2016),这本书在第 9 章提供了对 CNN 的特征和架构设计等详尽解释,网上有免费资源 [7]。
<