shixiongda-CSDN博客

原创 Sarsa的进阶--Sarsa(lambda)

Sarsa-lambda今天我们会来说说强化学习中基于 Sarsa 的一种提速方法, 叫做 Sarsa-lambda.Sarsa(n) Sarsa的算法是一种在线学习法, on-policy. 但是这个 lambda 到底是什么. 其实吧, Sarsa 是一种单步更新法, 在环境中每走一步, 更新一次自己的行为准则, 我们可以在这样的 Sarsa 后面打一个括号, 说他是 Sarsa...

2018-08-21 16:05:21 2319 1

原创强化学习基本原理及简单算法

强化学习算法及原理分析强化学习的目的在于作出最优的选择，最优则是指选择累计回报最大的行为。通用符号说明reward（r） reward通常都被记作rrr，表示确定action的返回奖赏值。所有强化学习都是基于reward假设的。reward是一个scalar。rrr所表示的reward是即时的回报（没有考虑长期回报）。累积折现回报函数（R）因为强化学习基本上可以总结为通过最大...

2018-08-20 16:13:31 7641

转载选择问题

选择强迫症在没有先验信息或者有部分先验信息的情况下，如何持续的作出更好的选择。（第一次写，抄一个有用的练练手）bandit算法Thompson sampling算法UCB算法*Epsilon-Greedy算法均值最大背景bandit算法来源于人民群众喜闻乐见的赌博学，它要解决的问题是这样的：一个赌徒，要去摇老虎机，走进赌场一看，一排老虎机，外表一模一样，...

2018-08-10 12:48:27 3609 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Sarsa的进阶--Sarsa(lambda)

原创 强化学习基本原理及简单算法

转载 选择问题

空空如也

空空如也

原创强化学习基本原理及简单算法

转载选择问题