Reinforcement Learning Introduction
苏摩bengal
这个作者很懒,什么都没留下…
展开
-
第一章 强化学习简介
第一章 介绍强化学习的基本思想:从与环境的互动中学习1.1 强化学习强化学习的重要特征:➀、反复试验(trial-and-error search)➁、推迟奖励(delayed reward)➀、已知状态StS_{t}St,需要做一个动作AtA_{t}At,得到一个奖励信号RtR_{t}Rt以及接下来的状态St+1S_{t+1}St+1。 目标是:通过调整AtA_{t}At...翻译 2019-07-09 23:11:58 · 602 阅读 · 0 评论 -
目录
目录1 简介1.1 强化学习1.2 实例1.3 强化学习的元素 (Elements of RL)1.4 限制和范围 (Limitations and Scope)1.5 扩展实例: Tic-Tac-Toe(三连棋游戏) 两人轮流在印有九格方盘上划“+”或“O”字, 谁先把三个同一记号排成横线、直线、斜线, 即是胜者...翻译 2019-07-04 23:42:16 · 358 阅读 · 1 评论 -
第二章 多臂老虎机(一)
第二章 多臂老虎机两种反馈:纯估计性反馈(purely evaluative feedback)和纯指示性反馈(purely instructive feedback)纯估计性反馈:估计某个动作好坏的程度,而不是该动作是否最好或者最坏。依赖于实际采取的动作。纯指示性反馈:指示正确的动作,与实际采取的动作无关。这种反馈是监督学习的基础。本章学习目标:研究这两种反馈的区别与联系。2.1 ...翻译 2019-07-21 22:43:12 · 940 阅读 · 0 评论 -
记号
≐\doteq≐ 根据定义等于≈\approx≈ 约等于∝\propto∝ 正比于PrX=xPr{X=x}PrX=x 随机变量XXX取值xxx的概率X∼pX\sim pX∼p 随机变量XXX服从于概率分布p(x)≐Pr{X=x}p(x)\doteq Pr\{X=x\}p(x)≐Pr{X=x}E[x]\mathbb{E}[x]E[x...翻译 2019-07-05 23:14:28 · 216 阅读 · 0 评论 -
第二章 多臂老虎机(二)
最佳初始值有偏(bias):定义:依赖于初始值的方法称为对初始值有偏。断言:样本平均方法遍历完所以动作之后,有偏会消失;常数步长因子方法不会。证明:∵N(A)=1⇒Q(A)=Q(A)+1N(a)(R−Q(A))=R\because N(A)=1 \Rightarrow Q(A)=Q(A)+\frac{1}{N(a)}(R-Q(A))=R∵N(A)=1⇒Q(A)=Q(A)+N(a)1(R...翻译 2019-07-22 22:59:18 · 443 阅读 · 0 评论