腾讯叶聪:朋友圈爆款背后的计算机视觉技术与应用

本文由腾讯技术专家叶聪分享,揭示朋友圈爆款活动背后计算机视觉的应用。内容涵盖计算机视觉基础,如定义、成像、处理分级,以及传统图像处理和深度学习方法。此外,讨论了云端AI能力对实现此类应用的支撑,并展望了技能进阶方向。
摘要由CSDN通过智能技术生成

分享嘉宾:叶聪 腾讯 技术专家

编辑整理:张智跃

内容来源:DataFun AI Talk「智能技术前沿实践分享」

出品社区:DataFun


导读: 本次分享系统介绍计算机视觉的基础知识,如何利用这些识别算法实现一个应用,同时进行部署、推广这一整套流程。主要包括以下六个部分:

1、朋友圈爆款活动背后的秘密;

2、计算机视觉基础;

3、曾经的图像处理方法-传统学习方法;

4、图像处理的爆发-深度学习方法;

5、解析云端AI能力支撑;

6、技能进阶。

--

01 朋友圈爆款活动背后的秘密

下图是五四青年节的活动,一个人脸匹配的游戏,其中使用的就是人脸识别的算法。大家上传自己的照片,就能匹配到民国时期的一些人物,然后以一种有趣的方式分享出来。为了实现这个服务,采用了一套非常有延展性的云架构。

file

那如果想要做一个像刚才那样的艺术活动,需要哪些基础知识?下面我们进行详细介绍。

--

02 计算机视觉基础

1. 计算机视觉定义

计算机视觉是研究如何从图像视频中获取高级、抽象的信息。从工程角度来讲,计算机视觉可以使模仿视觉任务自动化。计算机视觉包含以下一些分支:物体识别(Instance Recognition)、对象检测(Object Detection),语义分割(Sementic Segmentation),运动和跟踪(Motion & Tracking),三维重建(3D Reconstruction),视觉问答(Visual Question & Answering),动作识别(Action Recognition)等。

file

由于计算机视觉已经慢慢的趋于成熟,所以它能够颠覆的领域越来越多。基本上我们用人眼和传统的方法能够去识别的东西,计算机视觉都会逐步的改变。左图是比较常见的人脸识别,比如我们现在各种刷脸购物、刷脸进园区,这个刷脸其实就是识别(recognition),根据我们人脸的一些特征点,进行人脸匹配,就能知道是谁。

第二个是现在非常热门的无人驾驶,这个是一个比较复杂的、真实的任务,它可以通过不同的方式去解决,后面会详细介绍。

第三个是语义分割。我们人类看大自然的时候,从视网膜成像以后,知道有不同的颜色。机器是通过RGB-alpha去理解这个世界上颜色的。这里RGB就是红绿蓝三原色。一般说的真彩色叫32位彩色,rgb占24位,剩下的8位是alpha chanel,代表一个像素是不是透明的。

file

右边的三张图,最上面是灰度图,本身没有色彩。第二个是全彩图,只有RBG没有alpha透明通道。最后一张是真彩图,它有alpha通道,一共有32位。

2. 计算机视觉成像

我们经常要处理的是一些更加复杂的图片,比如像航拍图,热成像图,还有X光图、ct图、分子细胞图,为了能够处理它们采用了各种filter。

file

3.计算机视觉处理分级

为了更好地理解计算机视觉处理,进行了一个划分:low level, mid level, high level。low level的东西一般比较细节,比如降噪,优化、压缩、边缘检测。mid level包括分类、分割、对象检测,验证,语义分割等。High level更高纬、更加宏观一些,包括情景理解、人脸识别、无人驾驶、多模态问题等。

  • ** low level processing**

下图左边是胸部的X光图。左上原图中很难看清楚骨骼血管;左下是经过强化的,图中的骨骼、神经脉络和血管都看得很清楚。

中上是pcb的电路板图。原图上面有很多的噪点,经过降噪(denoise),图像变得非常平滑,就可以进行下一步的处理。

中下是航拍图。由于雾霾或者雾气的原因整张图泛白。如果直接去做一些处理,比如地图上的一些目标识别,效果会非常差。所以先做强化(enhancement),提高对比度,图像变清晰之后再做进一步处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值