《Reinforcement Learning: An Introduction》 读书笔记 - 目录
Reinforcement Learning 和 Supervised Learning 的区别
evaluate vs instruct
- 也就是说,RL的对于每一个action的效果不是非黑即白的,而是在每一次的action之后都可能不一样的后果(feedback, reward)
- 非iid,基于不同环境 和/或 之前的 actions
- reward可能是随机的
定义问题( k-armed bandit problem)
- k种actions => k个reward R R 的平稳分布
- 目标
一些概念
exploitation vs exploration (EE)
- exploitation: greedy move
- exploration: nongreedy trial
reward & value
the
value
of an action a a , denoted , is theexpected reward
given that a a- i.e.
- 用经验分布近似估计:
- Qt(a)=∑t−1i=1Ri⋅1Ai=a∑t−1i=11Ai=a Q t ( a ) = ∑
- 用经验分布近似估计: