深度强化学习
文章平均质量分 91
ppp8300885
这个作者很懒,什么都没留下…
展开
-
[强化学习]区分Model-free和Model-based方法
所以,如果你想查看这个强化学习算法是model-based还是model-free的,你就问你自己这个问题:在agent执行它的动作之前,它是否能对下一步的状态和回报做出预测,如果可以,那么就是model-based方法,如果不能,即为model-free方法原创 2017-11-13 20:20:41 · 47694 阅读 · 13 评论 -
深度强化学习汇总
从多臂赌博机问题到强化学习多臂赌博机,每次投币后只能选择按下一个臂,这个臂会有一定的概率给出奖励,但是我们并不知道每个臂给奖励的概率分布,那么如何获得最大收益呢?我们有两种策略,探索和利用, 探索是把所有的机会均分给每个臂,根据历史获得奖励的频率去近似它的真实奖励概率;利用就是每次都选择获得奖励频率最大的那个臂。探索可以更好的了解它的概率分布,从而制定更好的策略,缺点是会失去很多获得奖励的机会...原创 2018-03-30 16:50:49 · 1979 阅读 · 0 评论 -
Alphago杂谈
Alphago版本经历了Fan,Lee,Maser,以及后面的AlphaGo和AlphaZero,前三版Fan,Lee,Master用的是监督学习+强化学习训练,后两面Alphago Zero和AlphaZero则是直接使用强化学习训练。DeepMind在这个topic上只公布了两篇Natrue,一个对应前三版,一个对应后两版,对所有这几版Alphago的演变也我们只能从论文中获得,所以大部分...原创 2018-04-17 12:52:52 · 1838 阅读 · 0 评论 -
进化策略优化算法CEM(Cross Entropy Method)
1. 进化策略与遗传算法进化策略算法(Evolutionary Strategies,ES)是一种基于进化理论的算法,通过适者生存的自然法则来淘汰和筛选样本,目的是获得更好的样本(参数),与遗传算法一样,它也是通过参数扰动来探索更好的解,但是进化策略可以看做是遗传算法的一种扩展:在遗传算法中,我们用一串0/1数组表示遗传DNA,用父代们的DNA重组和变异得到不同的子代DNA,然后通过适应性函数...原创 2018-06-08 16:09:28 · 21058 阅读 · 3 评论