深入浅出强化学习原理入门(一)——马尔科夫决策过程
马尔科夫决策过程文章目录马尔科夫决策过程理论讲解马尔科夫性马尔科夫过程马尔科夫决策过程状态值函数question 1: 从一个状态到达另一个状态(直达)是否存在多种动作选择? 或者说一个状态下指定一个动作,是否会达到两个不同的状态?强化学习基本框架智能体与环境不断交互从而产生很多的数据,强化学习算法利用产生的数据修改自身的动作策略。强化学习与深度学习的区别:深度学习如图像识别和语音识别...
原创
2019-03-09 21:23:02 ·
1315 阅读 ·
0 评论