强化学习-3深度学习基础-CSDN博客

本文链接：https://blog.csdn.net/cezyzhao/article/details/139935602

文章目录

1 强化学习与深度学习的关系
2 线性回归
3 梯度下降
4 逻辑回归
5 全连接网络
6 更高级的神经网络

将深度学习和强化学习结合起来，利用深度学习网络强大的拟合能力通过将状态、动作等作为输入，来估计对应的状态价值和动作价值等等。

1 强化学习与深度学习的关系

强化学习的问题可以拆分成两类问题，即预测和控制。预测的主要目的是根据环境的状态和动作来预测状态价值和动作价值，而控制的主要目的是根据状态价值和动作价值来选择动作。预测主要是告诉我们当前状态下采取什么动作比较好，而控制则是按照某种方式决策。
通常在强化学习中预测和控制的部分看起来是共用一个 𝑄 表或者神经网络的，因此读者们可能会因为主要关注价值函数的估计而忽视掉控制这层关系，控制通常在采样动作的过程中体现出来。其实在前面也提到过，预测也相当于人的眼睛和大脑的视觉神经处理部分，而控制相当于大脑的决策神经处理部分，看似是两个独立的部分，但实际上是相互依赖的，预测的结果会影响到控制的决策，而控制的决策也会影响到预测的结果。
深度学习就是用来提高强化学习中预测的效果的，因为深度学习本身就是一个目前预测和分类效果俱佳的工具。比如 Q-learning 的 𝑄 表就完全可以用神经网络来拟合。注意，深度学习只是一种非常广泛的应用，但并不是强化学习的必要条件，也可以是一些传统的预测模型，例如决策树、贝叶斯模型等等。在控制问题中，也可以利用深度学习或者其他的方法来提高性能，例如结合进化算法来提高强化学习的探索能力。
从训练模式上来看，深度学习和强化学习，尤其是结合了深度学习的深度强化学习，都是基于大量的样本来对相应算法进行迭代更新并且达到最优的，这个过程我们称之为训练。但与另外两者不同的是，强化学习是在交互中产生样本的，是一个产生样本、算法更新、再次产生样本、再次算法更新的动态循环训练过程，而不是一个准备样本、算法更新的静态训练过程。

	深度学习	强化学习	深度强化学习
训练模式	基于大量的样本对算法进行迭代更新。静态训练。	在交互中产生样本，算法和样本动态循环训练。	同深度学习。
解决问题	分类问题，打标签	序列决策问题，打分数
	样本->模型	样本 -> 模型样本 <- 模型
	输入输出之间只有前向控制	输入和输出之间有前向控制和反馈回路