David Silver《Reinforcement Learning》课程解读—— Lecture 1： Introduction to Reinforcement Learning

最新推荐文章于 2024-08-10 16:16:57 发布

JK-Ray

最新推荐文章于 2024-08-10 16:16:57 发布

阅读量4.8k

点赞数 1

分类专栏： Reinforcement Learning 文章标签： RL 机器学习人工智能算法

本文链接：https://blog.csdn.net/sinat_27554409/article/details/72811355

版权

Reinforcement Learning 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

David Silver《Reinforcement Learning》课程解读—— Lecture 1： Introduction to Reinforcement Learning

前段时间学习了UCL讲师、AlphaGo项目的主程序员David Silver的课程Reinforcement Learning，手写了30多页学习笔记，可以说学得很浅，整个知识网络掌握得不够有连贯性，为了将整个课程的体系做一个梳理，写下此篇博文。课程ppt和视频资料在网上很容易搜索，此处不再提供。

课程目录：

Lecture 1： Introduction to Reinforcement Learning
Lecture 2： Markov Decision Processes
Lecture 3： Planning by Programming
Lecture 4： Model-Free Prediction
Lecture 5： Model-Free Control
Lecture 6： Value Function Approximation
Lecture 7： Policy Gradient
Lecture 8： Integrating Learning and Planning
Lecture 9： Exploration and Exploitation
Lecture 10： Calssic Games

Lecture 1： Introduction to Reinforcement Learning

1. About Reinforcement Learning

不需要监督，有一个reward signal。
强化学习中没有监督学习中的有标记样本，即没有人直接告诉机器在什么状态下该做什么动作，只有等到最终结果揭晓，才能通过“反思”之前的动作是否正确来进行学习，因此强化学习可以看作具有“延迟标记信息”的监督学习问题。
智能体的行为会影响它随后收到的反馈。
学习的目的就是要找到能使得长期累积奖赏最大化的策略。

2. The Reinforcement Learning Problem

Rewards
1. R_t是一个标量反馈信号。
2. 反映了智能体在时刻t行为得好坏。
3. 智能体的目的即最大化累积回报。
4. RL式基于回报假设：所有目标都可以表示为最大化期望累计回报。
Sequential Decision Making 连续决策
1. 目的：挑选动作行为来最大化将来的累计回报。
2. 牺牲立即回报来获得更多的长期回报。
Environment 环境
1. 如图所示，每一步，对于agent都有：
  - 计算动作 $A_t$
  - 接收观察 $O_t$
  - 接收常量回报 $R_t$
2. 对于environment都有：
  - 接收行为 $A_t$
  - 发出观察 $O_t$
  - 发出常量回报 $R_t$
State 状态
1. history与state不同，前者式一系列观察值/行为/回报所构成的集合，后者是只用于决定下一刻发生事件的信息。
2. 环境状态
  - $S^e_ t$ 用于挑选下一刻观察值和回值的信息，通常对智能体不可见。
3. 智能体状态
  - $S^a_ t$ 是智能体用于挑选下一个行为的所有信息。
4. Markov状态
  - $S_ t$ 是Markov当且仅当 $P[S_{t+1}|S_t]=P[S_{t+1} | S_1, S_2, S_3, ···， S_t]$ ，即随机过程的某事件只取决于它的上一事件，与初始状态无关。
5. Fully Obserable Environment
  - 智能体直接观察环境状态： $O_t=S^a_t=S^e_t$
  - 这就是一个MDP
6. Partially Obserable Environment
  - Agent间接观察环境： $O_t \neq S^a_t$
  - 这是一个Partially Observable Markov Decision Process POMDP
RL Agent
1. 组成
  - policy：智能体的行为选择函数
  - value：评价每个状态/动作
  - model：环境的代表
2. Policy
  - 即agent的表现，是从状态到动作的一个对应关系
  - 确定性策略： $a=π(s)$ ，即根据这个策略，就能知道在状态s下要执行的动作 $a=π(s)$ .
  - 随机策略： $π(a|s)=P[A_t=a|S_t=s]$ ，表示状态s下选择动作a的概率，因此有 $\sum_aπ(a|s)=1$ .
3. Value Function
  - 用于评价状态的好坏，是对将来回报的一个估计。
4. Model
  - 预测环境接下来要作出的反应， $P$ 预测下一刻状态， $R$ 预测下一刻的立即回报。
RL Agent 分类
1. Value Based
  - No Policy
  - Value Function
2. Policy Based
  - policy
  - No Value Function
3. Actor Critic
  - Policy
  - Value Function
4. Model Free
  - Policy and/or Value Function
  - No Model
5. Model Based
  - Policy and/or Value Function
  - Model