0 术语
0.0 马尔科夫过程
0.1 模型无关
1. PG: Reinforce
算期望值, 大数定律(平均数定律, 平均数也能表示期望值, 在大样本的情况下)
Bellman_Equation
参考文献
可能还有一些童鞋会问,算该状态的value function的时候,其它的状态的value function是怎么知道的呢?
比如算4.3的时候,我们如何知道它后继状态的value funciton为0.8,10。其实这些值一开始可以任意初始化,后面可以学习更新,就类似于神经网络的权值参数,一开始任意初始化,后面通过loss反向更新一样。
exploration and exploitation
exploration 会尝试很多不同的事情,看它们是否比以前尝试过的更好。
exploitation 会尝试过去经验中最有效的行为。