阿里云智能视觉首席研究员华先胜：视觉大数据智能分析、识别和搜索-CSDN博客

What’s Happening

从智能交通到教室监控再到视频直播等等场景，生活中每天都在产生海量的图像/视频数据。在这些场景中，对图像/视频数据进行智能分析、挖掘其中的内容以及对其中的事件进行实时的分析并非易事。

308a05dc08732eade58f407f23f2786c27094927

图一视觉智能

视觉智能发展朝向两个方向：云上智能和端上智能。云上的智能是指复杂的计算是在云上完成；端上智能则是在终端完成的，例如手机或摄像机本身自带的计算能力、自动驾驶等等。

云上智能除了单体的智能之外，还存在着整体的智能，也就是说也可以把大量数据放在一起进行计算、分析，然后挖掘更深层次的价值。

6085d55a8af149e2ac1e134577f9899726e89d09

图二云上智能的五要素

算法、平台、数据、用户、商业五大要素构成了云上智能。其中平台提供强大的计算能力，用于支撑图像视频分析算法；大量的数据保障智能算法的优越性能；用户既是算法的消费者，也是数据和算法准确率的贡献者；此外，好的商业模式才能让视觉应用长久地发展。

541e46676d2ed107b64d5167bcb6d461be00f20e

图三视觉智能计算主要技术方向

上图简要地概括了视觉计算技术的几大方向：第一是视频图像分析识别，主要是对视频或图像进行分割、检测、识别和跟踪等；第二个方向是视觉搜索，主要包含特征学习、索引、排序等；第三个方向是视频图像生成，主要是图像视频的生成、场景和物体的3D建模等；第四个方向是大规模视觉计算平台。

36c2a5207f24336d68fea8cf347a0487df080bd0

图四搜索和识别的关系

除视觉生成外，视觉计算技术从算法的角度来看核心可以总结为：搜索和识别。搜索和识别两者本身就具有相关性：现在的图像搜索离不开必要的识别，而识别任务在很多场景中，尤其是数据量非常大的场景中，是需要通过搜索来完成的。

视觉搜索和识别之进展

018ad2f71868336460c8dc2acbf35f00b71c0cb3

图五视觉搜索技术的发展历程

视觉搜索起源于上世纪九十年代，最初仅是在几千幅图中检索相似的图片；在2007年左右，才出现了基于内容的互联网图像搜索系统，实现了索引大数图像数据的问题，但还是没有正真解决两幅图像比较这一难题；在2012年左右，深度学习的出现才基本解决了图像内容比较的难题（通过深度学习提取图像的描述特征）。

搜索、识别之关键技术

882f6585fce6dc02de44f778db03b89732a02b1c

图六视觉搜索、识别系统的关键要求

一个真实世界的视觉搜索系统必须满足相关性、覆盖率、伸缩性、用户体验四个方面的要素才能真正地为大众所用。

相关性是指搜索的结果和搜索的目标是视觉语义相关的；
覆盖率是指无论搜索什么物品，都能得到一个合理的结果。
伸缩性是指系统具有处理大量数据和大量搜索请求的能力；
用户体验更多地体现在用户界面的设计，也通常用来弥补算法的不足。

dbfae3ba75356bb66c12828bb3c54303817421ff

图七真实世界中的视觉识别和搜索面临的挑战和机遇

真实世界中的视觉识别和搜索面临着大量的挑战：

用户对相关性/准确率的期望更高；
用户对覆盖率的期望更高；
输入视觉信号质量变化大；
系统性能要求很高；
有具体的衡量标准（能不能满足用户的需求，用户是否用他来购买商品）。

今天，在面对大量的挑战的同时，也拥有着更多的机会：首先，几乎所有的手机都具有相机，使得视觉搜索的入口十分便捷；其次，大数据分析平台的出现使得我们具有计算、处理大数据的能力；此外深度学习技术的出现以及大量的图像视频数据和大量的用户推动着视觉识别和搜索技术的发展。

8173c2a138b5930bf48cb3ea1c9b9a5554ad3ece

图八相关性：分类/识别

以电商图像搜索为例，简单介绍下相关性的要求：当获得一张图片时，首先需要知道该图片所代表的含义，并将其进行分类。尽管这时分类类目的数量相对较少，但这一步对准确率的要求非常之高。

faf13f3a2315b1ca500e44f57de1538be5084208

图九相关性：主体检测

第二点是主体检测，经过主体检测，找出用户搜索所关注的重点，则图像中背景的影响就会大大减少。

第三点图像特征，学习和描述图像中的特征，通过数字将物品的特点表现出来，便于利用特征搜索获得最终的结果。常见的图像特征包括：深度学习特征和图像局部特征。

视觉大数据之分析平台

对大数据而言，比如有上万路的视频数据或上百亿图像信号需要处理时，则需要结合阿里云计算平台。MaxCompute是阿里云已有的计算平台，我们将该平台与视觉计算的能力结合在一起，使得该平台有能力处理大量的视频数据。

9e0bc583e1964d2914f04359f298a3f4bf25131a

图十大规模离线视觉分析平台

对于大规模离线视觉分析：几千路视频首先进行解码，将其分割成视频帧或视频片段，然后在视频帧或视频片段上进行检测/分析，提取出视频帧特征列表，再经过后处理（跟踪、计数、事件等等），最终输出结果，整个过程的计算任务全部在大规模离线计算平台上完成。

733871277f4b984273fa40b944e5c5a6876b5422

图十一大规模在线视觉分析平台

由于很多视频应用是在线的，有着大量的实时要求，例如智能交通指挥等场景。阿里云的StreamCompute计算平台能够提供实时的大数据处理能力，同时能利用时间域的相关性和空间域的相关性得到目标分析结果，便于进行及时决策。

52b05e21c97d624ce031b54f28da92f9afcc0547

图十二阿里云眼

结合视觉搜索算法和大数据分析平台形成的阿里云眼（智能视觉云），是阿里云大数据平台上的智能视觉计算中心，目前承载着云上广泛、深入的视频图像的分析、识别、搜索和生成服务。

具体案例

目前，视觉识别和搜索在阿里已得到了广泛地应用。

eaf96aa06146153e940c158e43c2d5f55244174e

图十三拍立淘

手机淘宝上的拍立淘功能，通过对拍摄照片的分析，搜索出类似的商品。

dd3258eb6eace9602bd144e36ba2744643fb6a2c

图十四基于视频内容的商品推荐和广告

上图是通过对电视/电影中商品的搜索分析，找到合适的商品，然后再将该商品定向地进行广告推荐。此外，还可以对视频中场景的分类、事件的分类进行检测跟踪，例如检测到视频中人在打瞌睡，可以定向地投放类似红牛之类的广告。

总结

a79f63aa1253b88ef5a3a7cd057bee7e5e782aaa

图十五五大必要因素

真实世界中的视觉识别和搜索必须将商业、算法、用户、数据、系统五大因素结合在一起，才能真正地弥补目标语义和数据中提取特征之间的鸿沟，使得人工智能真正地大放异彩。

本文根据阿里云智能视觉首席研究员、 IEEE Fellow 、ACM杰出科学家华先胜在8月9日举办的2016云栖大会·北京峰会上的《视觉大数据智能分析、识别和搜索》演讲整理而成。即将在10月13-16日举办的2016杭州云栖大会，也特意开设了“人工智能专场：智，在云端”，交通、物流、海洋渔业等等场景，看人工智能的触角如何在生活中延伸。具体日程如下，精彩不容错过，快速报名！

b31782fb1ddff831b1a900834a8bca932d74aad2