强化学习
强化学习学习笔记
EntropyPlus
这个作者很懒,什么都没留下…
展开
-
Reinforcement Learning——Chapter 2 Multi-armed Bandits
1. Perface强化学习与其他学习方法最大的区别在于,强化学习 it uses training information that evaluates the actions taken rather than instructs by giving correct actions.1.1 A k-armed Bandit Problem假设你面前有K个不同的选项,每一次选择都会你选择的选项中得到一个量化的reward,你的目标是使得一段时间后获得的reward累积最大。一个具体的例子是这样的:翻译 2020-05-10 09:14:31 · 375 阅读 · 0 评论 -
Reinforcement Learning——Chapter 1 Introduction
Introduction强化学习是一种从与环境交互中直接获得goal-direxted learning的方法。1.1 Reinforcement Learning强化学习有两个主要的特征:trial and error(不停的试错)和delay reward(延迟反馈)。强化学习要解决的三个内容:work well on the problem, the field that studi...翻译 2020-05-07 02:26:32 · 314 阅读 · 0 评论 -
强化学习 —— (5)Sparse Reward
1. Reward 问题通常情况下,agent每一步操作有一个reward对应,但是,当reward非常稀疏时怎么办,可能三四步甚至更多才能产生reward。1.2. reward shaping环境有一个固定的reward,为了引导agent,需要我们自己设计规则制定reward。在设计类游戏中,人为指定的规则为:1.2.1 增加好奇模块在Intrinsic Curiosity ...原创 2020-04-20 14:44:01 · 906 阅读 · 0 评论 -
强化学习 —— (4)A3C
1. Policy Gradient的不足在Policy Gradient中,提到,Policy Gradient 算法在计算Reward时需要对数据进行采样:在采样的过程中,有很大的随机性,不太稳定。那么,能不能直接通过估计GtnG_t^nGtn的期望值,使用期望值来代替sample的值,这样可以保证稳定性。2. 改进方法Actor-Critic 的 Actor 的前生是 Polic...原创 2020-04-20 13:30:14 · 321 阅读 · 0 评论 -
强化学习——(3)Q-Learning
1. Q-learning 介绍1.1 Criticcritic 本身并没有办法决定要采取哪一个action,其主要用来完成:衡量一个action到底好不好。只能基于当前的state,输出采取这个action,预期到整个游戏结束时候的累积得分。简单的说,critic并不能衡量一个state(记为sss)的好坏,只能衡量在give某个state,接下来使用action(记为π\piπ)的情况下...原创 2020-04-15 22:50:14 · 1161 阅读 · 0 评论 -
强化学习——(2)PPO
1. On-policy与Off-policyOn-policy:学习到的agent既是与环境互动的policy,也是我们需要学习的agent。Off-policy:学习到的agent和与环境互动的policy是两个不同的agent1.1 为什么会从On-policy到Off-policy?在这篇文章中提到的算法是On-policy的,其所学习的agent在每一轮游戏完成之后,因为参数改变...原创 2020-04-15 01:42:48 · 769 阅读 · 0 评论 -
强化学习——(1)Policy Gradient
1. 基础介绍在强化学习中有两个东西:Agent和Environment。他们的关系如下:Agent会去观察Environment,会做一些Action,Change the environment,之后会得到reward。在Alpha Go中,observation为棋盘,action 是落子的位置,Environment为对手,reward为:赢了1,输了-1。因此,机器需要调整mod...原创 2019-11-03 23:42:29 · 455 阅读 · 0 评论