强化学习导论依然坚持在翻译,但工作量实在太大,先给出精简版。
强化学习book资料下载链接:https://gitee.com/CCHChenChangHong/QiangHuaXueXi/attach_files
动态规划(Dymamic Programming)以下简称DP。
DP要求一个完全已知的环境模型,MDP五元素全部知道。
你不记得什么是MDP五元素?MDP五元素为S,A,P,R,gama,分别对应状态(state),动作(action),状态转移概率(比如你到一个十字路口,你目前的状态(s)就是站在路口准备向下一个方向走,你有前后左右四个选择,假如你往左走的概率是20%,那么你从站立状态到往左走状态的状态转移概率为20%),奖励(reward),惩罚因子(gama)
<