2019年-目前AI进展读后感

最新推荐文章于 2024-07-12 16:09:11 发布

冷潇丶

最新推荐文章于 2024-07-12 16:09:11 发布

阅读量535

点赞数 2

分类专栏：阅读文章标签： AI

本文链接：https://blog.csdn.net/qq_42495388/article/details/102835684

版权

阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天阅读了阮一峰 的《你所不知道的 AI 进展》文章 , 做一个读后总结

记录当前AI 发展进度

一、图像处理

人工智能最先是从图像处理开始的 , 技能难度较高

1.1 对象补全

2017年，日本科学家提出了一种图像的对象补全模型。经过训练，模型可以补全图片上缺失的部分。

实例 : 去除人像脸上的斑点

1.2 背景处理

背景处理指的是，将前景物体从图片分离出来，再对背景进行加工。目前，已经有很好的智能算法可以去除图片背景,以及更改背景。

1.3 样式转换

人工智能还能够识别图片的风格样式（即像素的变化规律），将其套用在另一张图片。

1.4 图像着色

一旦识别出图片中的物体，模型就可以统计不同物体的像素颜色规律，然后就能推断黑白照片可能的颜色，从而实现照片着色。

可以体验一下,着色服务

二、GAN 方法

GAN 是"生成对抗网络"（Generative Adversarial Networks）

原理 : 两个神经网络互相对抗 , 一个神经网络负责生成虚拟图像，另一个神经网络负责鉴定假图像

2014年GAN方法被提出,是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。目前效果已经可以以假乱真。

GAN不仅可以生产虚拟图像,还可以生产音频、文本，甚至化合物分子， AI创造的东西都可以通过GAN提升效果。

有一个GitHub 仓库，专门收集不同用途的 GAN，目前已经有500多种模型

2.1 StyleGAN

目前，生成虚拟人像效果最好的模型是 Nvidia 公司的 StyleGAN。

2.2 图像翻译

一种图像通过 GAN 转变为另一种图像，称为图像翻译。

实例 : 空拍照片变成地图、黑白照片变成彩色照片

pix2pix 是图像翻译的开源工具，它可以让黑夜变成白天，示意图变成实物图等操作。

CycleGAN 模型还支持跨域翻译，将照片翻译成油画，斑马翻译成马。

难点 : 需要有成对的示例（源图像和相应的目标图像）

2.3 人像翻译

基于图像翻译 , StarGAN 模型可以翻译面部属性，比如头发的颜色、性别、肤色等,以及移植他人的表情

SC-FEGAN 是人像翻译的开源软件，可以让你编辑人像

2.4 文本到图像生成

GAN 最惊人的成果之一,就是根据文本生成图像

如 : 用户提供一个句子，软件生成对应的图像

未来推测,可以根据剧本直接生成一部电影

三、视频生成

从一个视频生成另一个视频，这就叫视频翻译。目前比较成熟的两个方向是运动传递和面部交换。

3.1 运动传递

将一个人的动作（包括身体、眼睛或嘴唇的动作）翻译到另一个人身上，使得另一个人出现一模一样的动作。

2018的论文《Everybody Dance Now》，给出了一个模型，可以将舞者的动作移植到任何人身上

3.2 脸部生成

根据一张脸的表情和动作，重建另一张脸

实例 : 虚拟的奥巴马演讲 , 这种伪造的视频被称为 Deepfake（深度伪造）

2018年出现的《深度视频肖像》更进了一步，生成的视频不局限于虚拟的面部表情，还会头部旋转、眼睛凝视和眨眼，是 3D 的肖像重构。

3.3 中国的实践

国内的人工智能视频生成，并不落后于国外。换脸应用 ZAO 只需用户上传一张照片，就能把影视剧主人公的脸换掉，好像你本人在表演电影一样。

3.4 视频渲染

Nvidia 公司2018年展示了实时光线追踪 RTX 技术。这项技术用人工智能预测光线的变化，从而不用耗费大量计算去追踪光线，因此可以实时渲染出高画质的 3D 动画。这对于视频游戏有重大意义。

RTX技术可以用于自动驾驶 , 通过对周围环境的识别 , 对驾驶做出调整

四、文本和声音处理

人工智能在文本和声音处理领域的进展

4.1 语音合成

谷歌在2018年推出了智能助手Google Duplex，它会根据你的日程，自动打电话去餐厅订座位。

4.2 音乐合成

OpenAI 基金会推出的MuseNet，通过学习数十万段 MIDI 音乐，能做到使用10种乐器，生成一段4分钟的音乐。

4.3 自动评论

使用 Yelp 网站的数据进行训练的模型，可以自动生成餐厅评论

4.4 智能邮件

Gmail 会根据电子邮件的来信内容，自动生成三种不同的回复，让用户选择。如果只是简单回应，用户不用自己动手写。

Gmail 的另一个功能是，根据用户已经写的内容，预测接下来会写的句子，供用户选择。

五、个人总结

目前AI的技术还不够成熟 , 有些缺陷。但总的来说，我还是很震惊的，这些技术觉得都是科幻片中才会出现的，现在慢慢的以及走进了生活。如P图软件,自动驾驶技术,阿里的无人酒店和超市 , 这可能都是划时代的突破。生活中的许多机械重复的事情，慢慢的会被机器代替。

我觉得凡事都是双面性,有好有坏。人工智能带给了我们生活的便利，但也让这个世界变得真真假假分不清。很害怕哪一天人工智能的机器会取代人类，但是我更相信，人工智能的出现，是为了服务于人类。所以自身应该多去了解这方面的知识，在未来自己也希望是个开发者，而不是被使用者。这样可以能会让我更有安全感以及骄傲一面。