核心的区别其实很简单,最终的策略是学出 pie(s) = a 还是 pie(s, a) = p
deterministic policy 缺少探索,容易出以下问题:2个一样的state(实际上不一样的,但是agent观察到的只是env的一部分,导致认为是一样的),输出同样的action,一个是正确,一个导致灾难性的后果。详情见,David Silver在视频中的迷宫例子。
核心的区别其实很简单,最终的策略是学出 pie(s) = a 还是 pie(s, a) = p
deterministic policy 缺少探索,容易出以下问题:2个一样的state(实际上不一样的,但是agent观察到的只是env的一部分,导致认为是一样的),输出同样的action,一个是正确,一个导致灾难性的后果。详情见,David Silver在视频中的迷宫例子。