ml入门(六)powered by @李宏毅
第十五课(Reinforcement Learning)
让机器根据不同的action将会得到不同的response,可能是不好的,也可能是好的。reinforcement learning要做到的事情就是让reward最大化。
有时reward的情况是非常sparse的,大部分reward的返回都为0。RL的难点在于如何在sparse的情况下得到好的效果。
1 RL vs Supervised
2 A3C(Asynchronous Advantage Actor-Critic)
(1) Police based
What is the Actor/Police?
Actor就是maching learning里的function,其作用为输入observation(state)需要输出相应的Action。
学习步骤: