使用动态规划的目的是为了求解在一个策略下的状态的状态价值 具体案例可以参考[强化学习(三)用动态规划(DP)求解](https://www.cnblogs.com/pinard/p/9463815.html)