深度强化学习

(这是写给自己看的,大佬请忽略)     

深度学习和其他机器学习算法最大的不同在于如何找到特征,而特征的抽取过程就是一个抽象的全过程。以往机器学习算法的特征抽取都是对一类问题有解,比如K-means等聚类。深度学习抽象模拟了人类神经元传递和连接方式,理论上可以解决多种分类问题和预测问题,甚至研究未知领域。

(深度学习优化 第十章 深度强化学习)

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。众所周知,在人工智能领域,感知、认知和决策的能力都是衡量智能的指标。深度学习(深度神经网络)是使得感知能力得到进一步提升与巨大突破的核心技术,同时,强化学习的学习机制是不断的与环境进行交互,以试错的方式得到最优策略,是使得决策能力持续收益的关键技术。   

深度Q网络是谷歌DeepMind于2013年提出的一个深度强化学习算法,它将深度Q网络应用在计算机网游戏上,和人类一样,使用视觉信息作为输入。符号Q表示在某一状态下执行某一操作时所获取的分数或质量。深度Q网络种,仅使用值网络表示评估模块,其核心思想是:基于值网络,遍历某一状态下各种动作的价值,然后选择价值最大的一个动作输出。由于深度卷积神经网络在图像处理有着天然的优势,将其与强化学习中的Q学习相结合处理图像数据的感知决策任务是目前主流方向之一。

目前,依托大量训练数据集而成功的深度学习技术已在计算机视觉和语音处理领域取得诸多突破性成果。依赖先验知识挖掘或统计物理特性的特征工程(包括特征提取与体征选择)将被基于深度学习技术下的特征学习所替代。特征学习与特征工程分别是用于深度学习和机器学习下挖掘数据中所蕴涵的某种语义或特征特性的俩中方法。通常Q学习技术依赖于人工特征的选取,智能体学习的好坏严重取决于特征选取的质量。深度Q学习的动机是基于卷积神经网络的特征学习,将Q学习中的人工特征提取技术替换为深度学习下的特征学习。

应用举例(AlphaGo)

计算机围棋被认为是人工智能领域的一大挑战,本质是搜索b^{d}个落子情况序列,其中b为搜索的宽度(当前局面在哪里落子),d为搜索的深度(接下来若干步之后的对弈局面),以期利用状态动作值函数来评估当前棋局和落子的最佳位置。象棋具有有限且可执行的搜索空间,围棋的计算复杂度约为250^{150},按照现有的计算能力采用暴力搜索方式是不能解决问题的。近年来,随着深度学习的不断发展和完善,基于强化学习和蒙特卡洛树搜索策略的AlphaGo达到人类顶尖棋手水准。其核心思想是通过卷积神经网络来构建的估值网络和策略网络分别对搜索的深度和宽度进行约减,使得搜索效率大幅度提升,胜率估算也更加精确。

总结:强化学习的本质为马尔可夫决策过程,宇机器学习中监督学习不一样,强化学习不给定输入所对应的标注,而是给一个回报函数,即决定在某种状态下执行某种动作的收益。强化学习的性能的优劣取决于人工特征提取技术,深度学习的优势恰好可以弥补这一短板。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值