分享嘉宾:叶聪 腾讯 技术专家
编辑整理:张智跃
内容来源:DataFun AI Talk「智能技术前沿实践分享」
出品社区:DataFun
导读: 本次分享系统介绍计算机视觉的基础知识,如何利用这些识别算法实现一个应用,同时进行部署、推广这一整套流程。主要包括以下六个部分:
1、朋友圈爆款活动背后的秘密;
2、计算机视觉基础;
3、曾经的图像处理方法-传统学习方法;
4、图像处理的爆发-深度学习方法;
5、解析云端AI能力支撑;
6、技能进阶。
--
01 朋友圈爆款活动背后的秘密
下图是五四青年节的活动,一个人脸匹配的游戏,其中使用的就是人脸识别的算法。大家上传自己的照片,就能匹配到民国时期的一些人物,然后以一种有趣的方式分享出来。为了实现这个服务,采用了一套非常有延展性的云架构。
那如果想要做一个像刚才那样的艺术活动,需要哪些基础知识?下面我们进行详细介绍。
--
02 计算机视觉基础
1. 计算机视觉定义
计算机视觉是研究如何从图像视频中获取高级、抽象的信息。从工程角度来讲,计算机视觉可以使模仿视觉任务自动化。计算机视觉包含以下一些分支:物体识别(Instance Recognition)、对象检测(Object Detection),语义分割(Sementic Segmentation),运动和跟踪(Motion & Tracking),三维重建(3D Reconstruction),视觉问答(Visual Question & Answering),动作识别(Action Recognition)等。
由于计算机视觉已经慢慢的趋于成熟,所以它能够颠覆的领域越来越多。基本上我们用人眼和传统的方法能够去识别的东西,计算机视觉都会逐步的改变。左图是比较常见的人脸识别,比如我们现在各种刷脸购物、刷脸进园区,这个刷脸其实就是识别(recognition),根据我们人脸的一些特征点,进行人脸匹配,就能知道是谁。
第二个是现在非常热门的无人驾驶,这个是一个比较复杂的、真实的任务,它可以通过不同的方式去解决,后面会详细介绍。
第三个是语义分割。我们人类看大自然的时候,从视网膜成像以后,知道有不同的颜色。机器是通过RGB-alpha去理解这个世界上颜色的。这里RGB就是红绿蓝三原色。一般说的真彩色叫32位彩色,rgb占24位,剩下的8位是alpha chanel,代表一个像素是不是透明的。
右边的三张图,最上面是灰度图,本身没有色彩。第二个是全彩图,只有RBG没有alpha透明通道。最后一张是真彩图,它有alpha通道,一共有32位。
2. 计算机视觉成像
我们经常要处理的是一些更加复杂的图片,比如像航拍图,热成像图,还有X光图、ct图、分子细胞图,为了能够处理它们采用了各种filter。
3.计算机视觉处理分级
为了更好地理解计算机视觉处理,进行了一个划分:low level, mid level, high level。low level的东西一般比较细节,比如降噪,优化、压缩、边缘检测。mid level包括分类、分割、对象检测,验证,语义分割等。High level更高纬、更加宏观一些,包括情景理解、人脸识别、无人驾驶、多模态问题等。
- ** low level processing**
下图左边是胸部的X光图。左上原图中很难看清楚骨骼血管;左下是经过强化的,图中的骨骼、神经脉络和血管都看得很清楚。
中上是pcb的电路板图。原图上面有很多的噪点,经过降噪(denoise),图像变得非常平滑,就可以进行下一步的处理。
中下是航拍图。由于雾霾或者雾气的原因整张图泛白。如果直接去做一些处理,比如地图上的一些目标识别,效果会非常差。所以先做强化(enhancement),提高对比度,图像变清晰之后再做进一步处理。