- 博客(4)
- 收藏
- 关注
原创 datawhale深度强化学习笔记02
task 02 有模型与免模型的区别是是否是已知的 预测的目标是获得状态转移函数,控制的目标是获得最优策略函数 蒙特卡洛方法的局限性:只适用于有终止状态的马尔可夫决策过程 首次访问蒙特卡洛(FVMC)与每次访问蒙特卡洛(EVMC)的区别 个人认为,FVMC是在整个决策树从头到尾下来的一根决策路径,而EVMC是会考虑到每个分叉的所有情况。FVMC具有无偏性和收敛快的特点,而EVMC则更加精确。 时序差分估计(TD) 可适用于无终止状态的马尔可夫决策过程 可以在线学习,走
2023-11-18 19:43:09 47 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人