文章目录
今天阅读了
阮一峰
的 《你所不知道的 AI 进展》 文章 , 做一个读后总结记录当前AI 发展进度
一、图像处理
人工智能最先是从图像处理开始的 , 技能难度较高
1.1 对象补全
2017年,日本科学家提出了一种
图像的对象补全模型
。经过训练,模型可以补全图片上缺失的部分。实例 : 去除人像脸上的斑点
1.2 背景处理
背景处理指的是,将前景物体从图片分离出来,再对背景进行加工。目前,已经有很好的智能算法可以去除图片背景,以及更改背景。
1.3 样式转换
人工智能还能够识别图片的风格样式(即像素的变化规律),将其套用在另一张图片。
1.4 图像着色
一旦识别出图片中的物体,模型就可以统计不同物体的像素颜色规律,然后就能推断黑白照片可能的颜色,从而实现照片着色。
可以体验一下,着色服务
二、GAN 方法
GAN 是"生成对抗网络"(Generative Adversarial Networks)
原理 : 两个神经网络互相对抗 , 一个神经网络负责生成虚拟图像,另一个神经网络负责鉴定假图像
2014年GAN方法被提出,是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。目前效果已经可以以假乱真。
GAN不仅可以生产虚拟图像,还可以生产音频、文本,甚至化合物分子 , AI创造的东西都可以通过GAN提升效果。
有一个GitHub 仓库,专门收集不同用途的 GAN,目前已经有500多种模型
2.1 StyleGAN
目前,生成虚拟人像效果最好的模型是 Nvidia 公司的 StyleGAN。
2.2 图像翻译
一种图像通过 GAN 转变为另一种图像,称为图像翻译。
实例 : 空拍照片变成地图、黑白照片变成彩色照片
pix2pix 是图像翻译的开源工具,它可以让黑夜变成白天,示意图变成实物图等操作。
CycleGAN 模型还支持跨域翻译,将照片翻译成油画,斑马翻译成马。
难点 : 需要有成对的示例(源图像和相应的目标图像)
2.3 人像翻译
基于图像翻译 , StarGAN 模型可以翻译面部属性,比如头发的颜色、性别、肤色等,以及移植他人的表情
SC-FEGAN 是人像翻译的开源软件,可以让你编辑人像
2.4 文本到图像生成
GAN 最惊人的成果之一,就是根据
文本
生成图像如 : 用户提供一个句子,软件生成对应的图像
未来推测,可以根据剧本直接生成一部电影
三、视频生成
从一个视频生成另一个视频,这就叫视频翻译。目前比较成熟的两个方向是运动传递和面部交换。
3.1 运动传递
将一个人的动作(包括身体、眼睛或嘴唇的动作)翻译到另一个人身上,使得另一个人出现一模一样的动作。
2018的论文《Everybody Dance Now》,给出了一个模型,可以将舞者的动作移植到任何人身上
3.2 脸部生成
根据一张脸的表情和动作,重建另一张脸
实例 : 虚拟的奥巴马演讲 , 这种伪造的视频被称为 Deepfake(深度伪造)
2018年出现的《深度视频肖像》更进了一步,生成的视频不局限于虚拟的面部表情,还会头部旋转、眼睛凝视和眨眼,是 3D 的肖像重构。
3.3 中国的实践
国内的人工智能视频生成,并不落后于国外。换脸应用 ZAO 只需用户上传一张照片,就能把影视剧主人公的脸换掉,好像你本人在表演电影一样。
3.4 视频渲染
Nvidia 公司2018年展示了
实时光线追踪 RTX 技术
。这项技术用人工智能预测光线的变化,从而不用耗费大量计算去追踪光线,因此可以实时渲染出高画质的 3D 动画。这对于视频游戏有重大意义。
RTX
技术可以用于自动驾驶 , 通过对周围环境的识别 , 对驾驶做出调整
四、文本和声音处理
人工智能在文本和声音处理领域的进展
4.1 语音合成
谷歌在2018年推出了智能助手
Google Duplex
,它会根据你的日程,自动打电话去餐厅订座位。
4.2 音乐合成
OpenAI 基金会推出的
MuseNet
,通过学习数十万段 MIDI 音乐,能做到使用10种乐器,生成一段4分钟的音乐。
4.3 自动评论
使用 Yelp 网站的数据进行训练的模型,可以
自动生成
餐厅评论
4.4 智能邮件
Gmail 会根据电子邮件的来信内容,自动生成三种不同的回复,让用户选择。如果只是简单回应,用户不用自己动手写。
Gmail 的另一个功能是,根据用户已经写的内容,预测接下来会写的句子,供用户选择。
五、个人总结
目前AI的技术还不够成熟 , 有些缺陷。但总的来说,我还是很震惊的,这些技术觉得都是科幻片中才会出现的,现在慢慢的以及走进了生活。如P图软件,自动驾驶技术,阿里的无人酒店和超市 , 这可能都是划时代的突破 。生活中的许多机械重复的事情,慢慢的会被机器代替。
我觉得凡事都是双面性,有好有坏。人工智能带给了我们生活的便利,但也让这个世界变得真真假假分不清。很害怕哪一天人工智能的机器会取代人类,但是我更相信,人工智能的出现,是为了服务于人类。所以自身应该多去了解这方面的知识,在未来自己也希望是个开发者,而不是被使用者。这样可以能会让我更有安全感以及骄傲一面。