深度强化学习

最新推荐文章于 2023-12-27 01:47:36 发布

吴春旭呀

最新推荐文章于 2023-12-27 01:47:36 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：深度强化学习

本文链接：https://blog.csdn.net/wcx1293296315/article/details/80963298

版权

深度学习专栏收录该内容

34 篇文章 3 订阅

订阅专栏

（这是写给自己看的，大佬请忽略）

深度学习和其他机器学习算法最大的不同在于如何找到特征，而特征的抽取过程就是一个抽象的全过程。以往机器学习算法的特征抽取都是对一类问题有解，比如K-means等聚类。深度学习抽象模拟了人类神经元传递和连接方式，理论上可以解决多种分类问题和预测问题，甚至研究未知领域。

（深度学习优化第十章深度强化学习）

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。众所周知，在人工智能领域，感知、认知和决策的能力都是衡量智能的指标。深度学习（深度神经网络）是使得感知能力得到进一步提升与巨大突破的核心技术，同时，强化学习的学习机制是不断的与环境进行交互，以试错的方式得到最优策略,是使得决策能力持续收益的关键技术。

深度Q网络是谷歌DeepMind于2013年提出的一个深度强化学习算法，它将深度Q网络应用在计算机网游戏上，和人类一样，使用视觉信息作为输入。符号Q表示在某一状态下执行某一操作时所获取的分数或质量。深度Q网络种，仅使用值网络表示评估模块，其核心思想是：基于值网络，遍历某一状态下各种动作的价值，然后选择价值最大的一个动作输出。由于深度卷积神经网络在图像处理有着天然的优势，将其与强化学习中的Q学习相结合处理图像数据的感知决策任务是目前主流方向之一。

目前，依托大量训练数据集而成功的深度学习技术已在计算机视觉和语音处理领域取得诸多突破性成果。依赖先验知识挖掘或统计物理特性的特征工程（包括特征提取与体征选择）将被基于深度学习技术下的特征学习所替代。特征学习与特征工程分别是用于深度学习和机器学习下挖掘数据中所蕴涵的某种语义或特征特性的俩中方法。通常Q学习技术依赖于人工特征的选取，智能体学习的好坏严重取决于特征选取的质量。深度Q学习的动机是基于卷积神经网络的特征学习，将Q学习中的人工特征提取技术替换为深度学习下的特征学习。

应用举例（AlphaGo）

计算机围棋被认为是人工智能领域的一大挑战，本质是搜索 $b^{d}$ 个落子情况序列，其中b为搜索的宽度（当前局面在哪里落子），d为搜索的深度（接下来若干步之后的对弈局面），以期利用状态动作值函数来评估当前棋局和落子的最佳位置。象棋具有有限且可执行的搜索空间，围棋的计算复杂度约为 $250^{150}$ ，按照现有的计算能力采用暴力搜索方式是不能解决问题的。近年来，随着深度学习的不断发展和完善，基于强化学习和蒙特卡洛树搜索策略的AlphaGo达到人类顶尖棋手水准。其核心思想是通过卷积神经网络来构建的估值网络和策略网络分别对搜索的深度和宽度进行约减，使得搜索效率大幅度提升，胜率估算也更加精确。