David Silver RL课程笔记(一)

这篇博客是作者对David Silver强化学习课程的第一讲笔记,涵盖了RL的基本概念,如奖励、代理与环境、状态、目标,以及RL问题的内部结构。博主通过实例解释了奖励的正负值、延迟反馈、状态的重要性,讨论了完全可观测和部分可观测环境,并简要介绍了策略、值函数和模型在RL代理中的作用。此外,还提及了RL的分类和学习与规划、探索与利用、预测与控制等核心问题。
摘要由CSDN通过智能技术生成

写在前面

RL入门小白,前一阵子看了一些关于RL的资料和书,包括周志华的《机器学习》西瓜书等,感觉对RL还是一知半解,不少概念理解并不深刻。最后还是决定看一遍David Silver大神的课,在这里结合自己的理解记一些课程笔记,主要是摘取部分个人认为的重点内容进行记录。一些重点名词、概念等会直接使用英文或者给出英文原文方便理解(顺便学下英语)。
感谢互联网感谢B站。

课程视频连接:https://www.bilibili.com/video/av45357759
课程配套资料:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
(可以下载各讲的课件等资料)

概述

第一讲主要就是Reinforcement Learning(RL)的入门介绍了,主要讲了一些相关的概念,举了一些RL应用的例子,以及RL目前的一些问题(problem)。

第一讲主要分为5大部分。

  1. Admin
  2. About RL
  3. RL Problem
  4. Inside an RL Agent
  5. Problems within RL

PART 1 Admin

这部分就是讲了一些这门课的成绩计算balabala,介绍了两本书:

PART 2 About RL

首先是强化学习(RL),也称增强学习,它跟监督学习、非监督学习的区别:

  • 没有监督者(supervisor),只有奖励(reward)信息
  • 反馈(feedback)是延后的,并不是即时反馈
  • 时间很重要(time really matters),是一个动态的变化
  • agent做出的action可能会影响后续的数据

然后举了一些RL应用的例子,如直升机做特技飞行、玩Atari游戏等,这里不再赘述。

PART 3 The RL Problem

这一部分David Silver重点介绍了RL的几个重要概念:

  • Reward
  • Agent & Environments
  • State

再补充一个goal:

  • Goal

下面我会结合我自己的理解进行解释这些概念。

Reward

reward用 R t R_t Rt 来表示,它是一个标量,表示agent在第 t t t 步做得有多好,agent的要干的活就是使得累计奖励最大。

agent’s job is to maximise cumulative reward

reward有正的也有负的,做得好,奖10分;做的不好,扣3分。

在这里就要说明的是:
最终的目标(goal)是要agent在每一步做出的action使得未来总奖励最大。(maximise total future reward)
当前的action可能对未来会有很重大的影响,而奖励又可能是延迟到来的。换言之,当前做了一个action使得当前得到的reward减少了,但是却能够给未来带来更大的reward。

也就是说,目光要放长远一些。

比如说,小时候纠结看电视还是要写作业,看电视我可以很开心,得到3分;但是写作业的话我就不开心,会得到0分;但是10点了爸妈回来了发现我没写作业就会揍我,-10分;要是写了作业就带我去玩+20分。那么选择写作业会使我当前的奖励变低但是会使最终的奖励最大,所以选择写作业是最优的。

Agent & Environments

Alt
图中的大脑就是agent,地球则表示environment。实际上agent并不能直接感知到environment,他只能通过observation O t O_t Ot 来获知environment的状态。接着,agent根据算法/策略做出一个action A t A_t At ,那么environment受到action A t A_t At 后,【这里进入下一个step】发生了一定的变化(不一定是可见的)observation O t + 1 O_{t+1} O

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值