- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 机器学习(三十五)——Actor-Critic, Integrating Learning and Planning(1)
Actor-Critic概述MC策略梯度方法使用了收获作为状态价值的估计,它虽然是无偏的,但是噪声却比较大,也就是变异性(方差)较高。如果我们能够相对准确地估计状态价值,用它来指导策略更新,那么是不是会有更好的学习效果呢?这就是Actor-Critic策略梯度的主要思想。Actor-Critic的字面意思是“演员-评论”,相当于演员在演戏的同时,有评论家指点,继而演员演得越来越好。即使用C...
2019-10-28 10:05:37 363
原创 机器学习(三十四)——策略梯度
策略梯度价值函数可以进行近似的参数化表达,策略本身也同样可以函数化、参数化:πθ(s,a)=P[a∣s,θ]\pi_\theta(s,a)=P[a | s, \theta]πθ(s,a)=P[a∣s,θ]所谓函数化是指,通过一个概率分布函数πθ(s,a)\pi_\theta(s,a)πθ(s,a),来表示每一步的最优策略,在每一步根据该概率分布进行action采样,获得当前的最佳acti...
2019-10-21 09:36:43 459
原创 机器学习(三十三)——价值函数的近似表示
价值函数的近似表示之前的内容都是讲解一些强化学习的基础理论,这些知识只能解决一些中小规模的问题。很多价值函数需要用一张大表来存储。当获取某一状态或行为的价值的时候,通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解。在实际应用中,对于状态和行为空间都比较大的情况,精确获得各种v(s)和q(s,a)几乎是不可能的。这时候需要找到近似的函数。具体来...
2019-10-14 08:58:12 601 2
Box2D v2.3.0 用户手册中文版
2015-04-07
计算日出日落时间的源码
2009-08-26
Notes On Writing Portable Programs In C(用C语言编写可移植程序的注意事项)
2009-05-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人