- 博客(3)
- 收藏
- 关注
原创 Sarsa的进阶--Sarsa(lambda)
Sarsa-lambda今天我们会来说说强化学习中基于 Sarsa 的一种提速方法, 叫做 Sarsa-lambda.Sarsa(n) Sarsa的算法是一种在线学习法, on-policy. 但是这个 lambda 到底是什么. 其实吧, Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa...
2018-08-21 16:05:21 2319 1
原创 强化学习基本原理及简单算法
强化学习算法及原理分析强化学习的目的在于作出最优的选择,最优则是指选择累计回报最大的行为。通用符号说明reward(r) reward通常都被记作rrr,表示确定action的返回奖赏值。所有强化学习都是基于reward假设的。reward是一个scalar。rrr所表示的reward是即时的回报(没有考虑长期回报)。累积折现回报函数(R) 因为强化学习基本上可以总结为通过最大...
2018-08-20 16:13:31 7641
转载 选择问题
选择强迫症在没有先验信息或者有部分先验信息的情况下,如何持续的作出更好的选择。 (第一次写,抄一个有用的练练手)bandit算法Thompson sampling算法UCB算法*Epsilon-Greedy算法均值最大背景bandit算法来源于人民群众喜闻乐见的赌博学,它要解决的问题是这样的: 一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,...
2018-08-10 12:48:27 3609 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人