2019年10月_antkillerfarm

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创机器学习（三十五）——Actor-Critic, Integrating Learning and Planning（1）

Actor-Critic概述MC策略梯度方法使用了收获作为状态价值的估计，它虽然是无偏的，但是噪声却比较大，也就是变异性（方差）较高。如果我们能够相对准确地估计状态价值，用它来指导策略更新，那么是不是会有更好的学习效果呢？这就是Actor-Critic策略梯度的主要思想。Actor-Critic的字面意思是“演员-评论”，相当于演员在演戏的同时，有评论家指点，继而演员演得越来越好。即使用C...

2019-10-28 10:05:37 363

原创机器学习（三十四）——策略梯度

策略梯度价值函数可以进行近似的参数化表达，策略本身也同样可以函数化、参数化：πθ(s,a)=P[a∣s,θ]\pi_\theta(s,a)=P[a | s, \theta]πθ(s,a)=P[a∣s,θ]所谓函数化是指，通过一个概率分布函数πθ(s,a)\pi_\theta(s,a)πθ(s,a)，来表示每一步的最优策略，在每一步根据该概率分布进行action采样，获得当前的最佳acti...

2019-10-21 09:36:43 459

价值函数的近似表示之前的内容都是讲解一些强化学习的基础理论，这些知识只能解决一些中小规模的问题。很多价值函数需要用一张大表来存储。当获取某一状态或行为的价值的时候，通常需要一个查表操作（Table Lookup），这对于那些状态空间或行为空间很大的问题几乎无法求解。在实际应用中，对于状态和行为空间都比较大的情况，精确获得各种v(s)和q(s,a)几乎是不可能的。这时候需要找到近似的函数。具体来...

2019-10-14 08:58:12 601 2

Box2D v2.3.0 用户手册中文版

Box2D v2.3.0 用户手册中文版推介一下本人的GitHub下的Box2D镜像，相关翻译工作由该镜像维护，欢迎参与 https://github.com/antkillerfarm/box2d

2015-04-07

计算日出日落时间的源码

计算日出日落时间的源码，http://www.supercss.com源码的基础上做了修改，并改正了原算法的计算错误。（原算法计算的白天黑夜的时间长度正确，但时刻不对。）

2009-08-26

Notes On Writing Portable Programs In C(用C语言编写可移植程序的注意事项)

Notes On Writing Portable Programs In C中文翻译版

2009-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

antkillerfarm的专栏

原创机器学习（三十五）——Actor-Critic, Integrating Learning and Planning（1）

原创机器学习（三十四）——策略梯度

原创机器学习（三十三）——价值函数的近似表示

Box2D v2.3.0 用户手册中文版

计算日出日落时间的源码

Notes On Writing Portable Programs In C(用C语言编写可移植程序的注意事项)

空空如也

原创 机器学习（三十五）——Actor-Critic, Integrating Learning and Planning（1）

原创 机器学习（三十四）——策略梯度

原创 机器学习（三十三）——价值函数的近似表示

Box2D v2.3.0 用户手册中文版

计算日出日落时间的源码

Notes On Writing Portable Programs In C(用C语言编写可移植程序的注意事项)

空空如也

原创机器学习（三十五）——Actor-Critic, Integrating Learning and Planning（1）

原创机器学习（三十四）——策略梯度

原创机器学习（三十三）——价值函数的近似表示