- 博客(1)
- 资源 (5)
- 收藏
- 关注
原创 Reinforcement Learning强化学习系列之四:时序差分TD
引言前面一篇讲的是蒙特卡洛的强化学习方法,蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,不过蒙特卡罗方法有一个缺点,就是每次需要采样完一个轨迹之后才能更新策略。蒙特卡洛方法没有充分利用学习任务的MDP结构,而时序差分学习方法Temporal Difference(TD)就充分利用了MDP结构,效率比MC要高,这篇文章介绍一下TD算法Sarsa算法Sars...
2018-01-02 21:04:47 9211 7
Struts2+Hibernate+Spring3.3.2环境配置
Struts2+Hibernate+Spring3.3.2环境配置,其中有所需要的所有jar文件,并且使用了相应的文件夹标注,方便配置user library
2015-02-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人