腾讯叶聪：朋友圈爆款背后的计算机视觉技术与应用

DataFunTalk

于 2022-06-19 13:06:34 发布

阅读量511

点赞数

文章标签：大数据人工智能 DatafunTalk

本文链接：https://blog.csdn.net/datafun_hoh/article/details/125356893

版权

本文由腾讯技术专家叶聪分享，揭示朋友圈爆款活动背后计算机视觉的应用。内容涵盖计算机视觉基础，如定义、成像、处理分级，以及传统图像处理和深度学习方法。此外，讨论了云端AI能力对实现此类应用的支撑，并展望了技能进阶方向。

摘要由CSDN通过智能技术生成

分享嘉宾：叶聪腾讯技术专家

编辑整理：张智跃

内容来源：DataFun AI Talk「智能技术前沿实践分享」

出品社区：DataFun

导读： 本次分享系统介绍计算机视觉的基础知识，如何利用这些识别算法实现一个应用，同时进行部署、推广这一整套流程。主要包括以下六个部分：

1、朋友圈爆款活动背后的秘密；

2、计算机视觉基础；

3、曾经的图像处理方法-传统学习方法；

4、图像处理的爆发-深度学习方法；

5、解析云端AI能力支撑；

6、技能进阶。

01 朋友圈爆款活动背后的秘密

下图是五四青年节的活动，一个人脸匹配的游戏，其中使用的就是人脸识别的算法。大家上传自己的照片，就能匹配到民国时期的一些人物，然后以一种有趣的方式分享出来。为了实现这个服务，采用了一套非常有延展性的云架构。

file

那如果想要做一个像刚才那样的艺术活动，需要哪些基础知识？下面我们进行详细介绍。

02 计算机视觉基础

1. 计算机视觉定义

计算机视觉是研究如何从图像视频中获取高级、抽象的信息。从工程角度来讲，计算机视觉可以使模仿视觉任务自动化。计算机视觉包含以下一些分支：物体识别（Instance Recognition）、对象检测（Object Detection），语义分割（Sementic Segmentation），运动和跟踪（Motion & Tracking），三维重建（3D Reconstruction），视觉问答（Visual Question & Answering），动作识别（Action Recognition）等。

file

由于计算机视觉已经慢慢的趋于成熟，所以它能够颠覆的领域越来越多。基本上我们用人眼和传统的方法能够去识别的东西，计算机视觉都会逐步的改变。左图是比较常见的人脸识别，比如我们现在各种刷脸购物、刷脸进园区，这个刷脸其实就是识别（recognition），根据我们人脸的一些特征点，进行人脸匹配，就能知道是谁。

第二个是现在非常热门的无人驾驶，这个是一个比较复杂的、真实的任务，它可以通过不同的方式去解决，后面会详细介绍。

第三个是语义分割。我们人类看大自然的时候，从视网膜成像以后，知道有不同的颜色。机器是通过RGB-alpha去理解这个世界上颜色的。这里RGB就是红绿蓝三原色。一般说的真彩色叫32位彩色，rgb占24位，剩下的8位是alpha chanel，代表一个像素是不是透明的。

file

右边的三张图，最上面是灰度图，本身没有色彩。第二个是全彩图，只有RBG没有alpha透明通道。最后一张是真彩图，它有alpha通道，一共有32位。

2. 计算机视觉成像

我们经常要处理的是一些更加复杂的图片，比如像航拍图，热成像图，还有X光图、ct图、分子细胞图，为了能够处理它们采用了各种filter。

file

3.计算机视觉处理分级

为了更好地理解计算机视觉处理，进行了一个划分：low level, mid level, high level。low level的东西一般比较细节，比如降噪，优化、压缩、边缘检测。mid level包括分类、分割、对象检测，验证，语义分割等。High level更高纬、更加宏观一些，包括情景理解、人脸识别、无人驾驶、多模态问题等。