与有监督机器学习方法相比,DRL方法中没有实际的损失函数。
强化学习分类
- Q函数(Value-based Function)
Q函数也就是经常用到的价值函数,用来估计一个(s,a)状态动作对的价值。
Q函数的输入是“状态和动作”,输出“价值”。
1.1 Q-Learning
根据reward矩阵,在训练过程中更新Q表(Q表用于记录状态-动作对的值。每个episode中的每一步都会更新一次Q表。每一次episode的结束指的是完成任务,比如迷宫问题指的是到达终点,可参考强化学习——从Q-Learning到DQN)
1.2 DQN
值函数近似(Function Approximation)的方法就是为了解决状态空间过大,也称为“维度灾难”的问题。通过用函数而不是Q表来表示 Q( s,a) ,这个函数可以是线性的也可以使非线性的。
DQN是一种深度强化学习。就是用神经网络进行function approximation(函数逼近),来模拟Q函数。
DQN(Deep Q-Network)了,实际上它就是Q-Learning和神经网络的结合,将Q-Learning的Q表变成了Q-Network.
-
策略函数(Policy-based Function)
策略函数则是根据状态来输出动作或者动作的概率。 策略函数的输入是“状态”,输出是“动作或者动作的概率”。
**Even if the prob