李宏毅2020课程1学习笔记
1、State就是Observation
这个State是环境的State,而不是系统的State
个人想法:如果连人都不知道正确答案是什么,那就没办法用监督式的学习,这时候可以用Reindorcement Lerning.
2、Outline
3、Policy-based Approach
Learning an Actor
Machine Learning ≈ Looking for a Function
这里的Function应该就是Actor
Step1
这里Actor/Function如果为Neural network,那它就是一个Deep Reinforcement Learning.
Step2
Step3
为什么要取log?
比如上面这幅图中,b动作得到的reward虽然小,但次数多,而我们要公式里乘的是总的R,这会导致训练出的actor认为b是好的。但实际上a动作可以得到较高reward,只是比较罕见。所以取log(即等同于蓝色字体部分)也就是做了一个归一化,进而避免这种情况。
4、Actor-Critic
可以将Actor和Critic合在一起使用