写在前面
RL入门小白,前一阵子看了一些关于RL的资料和书,包括周志华的《机器学习》西瓜书等,感觉对RL还是一知半解,不少概念理解并不深刻。最后还是决定看一遍David Silver大神的课,在这里结合自己的理解记一些课程笔记,主要是摘取部分个人认为的重点内容进行记录。一些重点名词、概念等会直接使用英文或者给出英文原文方便理解(顺便学下英语)。
感谢互联网感谢B站。
课程视频连接:https://www.bilibili.com/video/av45357759
课程配套资料:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
(可以下载各讲的课件等资料)
概述
第一讲主要就是Reinforcement Learning(RL)的入门介绍了,主要讲了一些相关的概念,举了一些RL应用的例子,以及RL目前的一些问题(problem)。
第一讲主要分为5大部分。
- Admin
- About RL
- RL Problem
- Inside an RL Agent
- Problems within RL
PART 1 Admin
这部分就是讲了一些这门课的成绩计算balabala,介绍了两本书:
- An Introduction to RL,Sutton Barto,1998
http://www.incompleteideas.net/book/RLbook2018.pdf
很经典的RL课本了,2018版500多页,偏理论一些。 - Algorithms for RL,Szepesvari
https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
偏向于公式推导,2018版不到100页。
PART 2 About RL
首先是强化学习(RL),也称增强学习,它跟监督学习、非监督学习的区别:
- 没有监督者(supervisor),只有奖励(reward)信息
- 反馈(feedback)是延后的,并不是即时反馈
- 时间很重要(time really matters),是一个动态的变化
- agent做出的action可能会影响后续的数据
然后举了一些RL应用的例子,如直升机做特技飞行、玩Atari游戏等,这里不再赘述。
PART 3 The RL Problem
这一部分David Silver重点介绍了RL的几个重要概念:
- Reward
- Agent & Environments
- State
再补充一个goal:
- Goal
下面我会结合我自己的理解进行解释这些概念。
Reward
reward用 R t R_t Rt 来表示,它是一个标量,表示agent在第 t t t 步做得有多好,agent的要干的活就是使得累计奖励最大。
agent’s job is to maximise cumulative reward
reward有正的也有负的,做得好,奖10分;做的不好,扣3分。
在这里就要说明的是:
最终的目标(goal)是要agent在每一步做出的action使得未来总奖励最大。(maximise total future reward)
当前的action可能对未来会有很重大的影响,而奖励又可能是延迟到来的。换言之,当前做了一个action使得当前得到的reward减少了,但是却能够给未来带来更大的reward。
也就是说,目光要放长远一些。
比如说,小时候纠结看电视还是要写作业,看电视我可以很开心,得到3分;但是写作业的话我就不开心,会得到0分;但是10点了爸妈回来了发现我没写作业就会揍我,-10分;要是写了作业就带我去玩+20分。那么选择写作业会使我当前的奖励变低但是会使最终的奖励最大,所以选择写作业是最优的。
Agent & Environments
图中的大脑就是agent,地球则表示environment。实际上agent并不能直接感知到environment,他只能通过observation O t O_t Ot 来获知environment的状态。接着,agent根据算法/策略做出一个action A t A_t At ,那么environment受到action A t A_t At 后,【这里进入下一个step】发生了一定的变化(不一定是可见的)observation O t + 1 O_{t+1} O