Policy Function
Can we directly learn a policy function?
Policy Network
State-Value Function Approximation
Policy-Based Reinforcement Learning
Policy Gradient
得到两种形式的策略梯度:
这个方法不适合连续的情况。
这种方法的好处是也适用于离散动作。
Update policy network using policy gradient
存在一个问题: