自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Sarsa的进阶--Sarsa(lambda)

Sarsa-lambda 今天我们会来说说强化学习中基于 Sarsa 的一种提速方法, 叫做 Sarsa-lambda. Sarsa(n) Sarsa的算法是一种在线学习法, on-policy. 但是这个 lambda 到底是什么. 其实吧, Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa...

2018-08-21 16:05:21 2298 1

原创 强化学习基本原理及简单算法

强化学习算法及原理分析 强化学习的目的在于作出最优的选择,最优则是指选择累计回报最大的行为。 通用符号说明 reward(r) reward通常都被记作rrr,表示确定action的返回奖赏值。所有强化学习都是基于reward假设的。reward是一个scalar。rrr所表示的reward是即时的回报(没有考虑长期回报)。 累积折现回报函数(R) 因为强化学习基本上可以总结为通过最大...

2018-08-20 16:13:31 7552

转载 选择问题

选择强迫症 在没有先验信息或者有部分先验信息的情况下,如何持续的作出更好的选择。 (第一次写,抄一个有用的练练手) bandit算法 Thompson sampling算法 UCB算法 *Epsilon-Greedy算法 均值最大 背景 bandit算法来源于人民群众喜闻乐见的赌博学,它要解决的问题是这样的: 一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,...

2018-08-10 12:48:27 3598 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除