深度学习在计算机视觉领域的应用和未来

物体识别(图像识别)

物体识别是计算机视觉领域中的一项基础研究,它的任务是识别出图像中是什么物体。

如,手写数字识别的图像类别分类问题。

在这里插入图片描述

物体检测

从图像中确定物体的位置,并进行分类。

在这里插入图片描述

图像分割

在像素水平上对图像进行分类。

在这里插入图片描述

图像标题的生成

给出一个图像后,会自动生成介绍这个图像的文字(图像的标题)。融合了计算机视觉和自然语言。

PS:将组合图像和自然语言等多种信息进行的处理称为多模态处理

在这里插入图片描述

图像风格变换

输入两个图像后,会生成一个新的图像。两个输入图像中,一个称为“内容图像”,另一个称为“风格图像”。

在这里插入图片描述

图像的生成

生成新的图像(需要事先使用大量的图像进行学习,但在“画”新图像时不需要任何图像。

比如,基于DCGAN(Deep Convolutional Generative Adversarial Network)方法生成卧室图像。

在这里插入图片描述

DCGAN的技术要点是使用了Generator(生成者)和Discriminator(识别者)这两个神经网络。 Generator生成近似真品的图像, Discriminator判别它是不是真图像(是Generator生成的图像还是实际拍摄的图像)。像这样,通过让两者以竞争的方式学习, Generator会学习到更加精妙的图像作假技术,Discriminator则会成长为能以更高精度辨别真假的鉴定师。两者互相切磋、共同成长,这称为GAN(Generative Adversarial Network)生成对抗网络技术。

自动驾驶

自动驾驶需要结合各种技术的力量来实现,比如决定行驶路线的路线计划(path plan)技术、照相机或激光等传感技术等,在这些技术中,正确识别周围环境的技术尤其重要。

下图对输入图像进行了分割(像素水平的判别)。观察结果可知,在某种程度上正确地识别了道路、建筑物、人行道、树木、车辆等。

在这里插入图片描述

Deep Q-Network(强化学习)

就像人类通过摸索试验来学习一样(比如骑自行车),让计算机也在摸索试验的过程中自主学习。

强化学习的基本框架是,代理(Agent)根据环境选择行动,然后通过这个行动改变环境。根据环境的变化,代理获得某种报酬。强化学习的目的是决定代理的行动方针,以获得更好的报酬。

基于Deep Q-Network学习电子游戏的操作。输入是电子游戏的图像,经过摸索试验,学习出让专业玩家都自愧不如的游戏手柄(操作杆)的操作手法。

在这里插入图片描述

人工智能 AlphaGo击败围棋冠军,这个AlphaGo技术的内部也用了深度学习和强化学习。AlphaGo学习了3000万个专业棋手的棋谱,并且不停地重复自己和自己的对战,积累了大量的学习经验。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值