自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (5)
  • 收藏
  • 关注

原创 机器学习(三十五)——Actor-Critic, Integrating Learning and Planning(1)

Actor-Critic概述MC策略梯度方法使用了收获作为状态价值的估计,它虽然是无偏的,但是噪声却比较大,也就是变异性(方差)较高。如果我们能够相对准确地估计状态价值,用它来指导策略更新,那么是不是会有更好的学习效果呢?这就是Actor-Critic策略梯度的主要思想。Actor-Critic的字面意思是“演员-评论”,相当于演员在演戏的同时,有评论家指点,继而演员演得越来越好。即使用C...

2019-10-28 10:05:37 363

原创 机器学习(三十四)——策略梯度

策略梯度价值函数可以进行近似的参数化表达,策略本身也同样可以函数化、参数化:πθ(s,a)=P[a∣s,θ]\pi_\theta(s,a)=P[a | s, \theta]πθ​(s,a)=P[a∣s,θ]所谓函数化是指,通过一个概率分布函数πθ(s,a)\pi_\theta(s,a)πθ​(s,a),来表示每一步的最优策略,在每一步根据该概率分布进行action采样,获得当前的最佳acti...

2019-10-21 09:36:43 459

原创 机器学习(三十三)——价值函数的近似表示

价值函数的近似表示之前的内容都是讲解一些强化学习的基础理论,这些知识只能解决一些中小规模的问题。很多价值函数需要用一张大表来存储。当获取某一状态或行为的价值的时候,通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解。在实际应用中,对于状态和行为空间都比较大的情况,精确获得各种v(s)和q(s,a)几乎是不可能的。这时候需要找到近似的函数。具体来...

2019-10-14 08:58:12 601 2

Box2D v2.3.0 用户手册中文版

Box2D v2.3.0 用户手册中文版 推介一下本人的GitHub下的Box2D镜像,相关翻译工作由该镜像维护,欢迎参与 https://github.com/antkillerfarm/box2d

2015-04-07

计算日出日落时间的源码

计算日出日落时间的源码,http://www.supercss.com源码的基础上做了修改,并改正了原算法的计算错误。(原算法计算的白天黑夜的时间长度正确,但时刻不对。)

2009-08-26

Notes On Writing Portable Programs In C(用C语言编写可移植程序的注意事项)

Notes On Writing Portable Programs In C中文翻译版

2009-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除