强化学习,马尔科夫奖励过程中,用递归的方式求某一状态的价值
简单的例题,能够帮助理解
```mermaid
![graph TD;
A-->B;
B-->C;](https://img-blog.csdnimg.cn/20210914212944335.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODU2MDU3,size_16,color_FFFFFF,t_70)
..
原创
2021-09-14 21:30:43 ·
107 阅读 ·
0 评论