Lecture 1: Introduction to Reinforcement
Learning
https://www.davidsilver.uk/teaching/
Admin
Website:
http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
Contact me: d.silver@cs.ucl.ac.uk
About Reinforcement Learning
The Reinforcement Learning Problem
之前的例子:
①强化学习是做出最佳决策的科学。它可以帮助我们制定活的物种所表现出的奖励动机行为。比方说,你想让一个孩子坐下来学习考试。要做到这一点非常困难,但是如果每次完成一章/主题时都给他一块巧克力,他就会明白,如果他继续学习,他会得到更多的巧克力棒。所以他会有一些学习考试的动机。
②孩子代表着Agent代理 。奖励制度和考试代表了Environment环境。今天的题目是类似于强化学习的States状态。所以,孩子必须决定哪些话题更重要(即计算每种行为的价值)。这将是我们的工作的 Value-Function价值方程。所以,每次他从一个国家到另一个国家旅行时,他都会得到Reward奖励,他用来在时间内完成主题的方法就是我们的Policy决策。
Rewards
所有的目标都可以用最大化的预期结果来描述积累的奖励。
Agent and Environment
History
history包含了一次经历中全部的observation、action和reward。
三种State
agent state 是 agent 内部状态,用于通过 observation 得到输出的 action。
environment state 是环境的私有状态,用于通过agent 的 action 得到定输出的 reward 和 observation。
information state 包含全部history中的information,是马尔可夫状态。
Inside An RL Agent(Major Components )
An RL agent may include one or more of these components:
Policy: agent’s behaviour function
Value function: how good is each state and/or action
Model: agent’s representation of the environment
Problems within Reinforcement Learning
RL代理人的分类方式
按照有无价值方程和策略分类
按照有无模型分类