David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning

Lecture 1: Introduction to Reinforcement
Learning
https://www.davidsilver.uk/teaching/

Admin

Website:
http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
Contact me: d.silver@cs.ucl.ac.uk

About Reinforcement Learning

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

The Reinforcement Learning Problem

之前的例子:
①强化学习是做出最佳决策的科学。它可以帮助我们制定活的物种所表现出的奖励动机行为。比方说,你想让一个孩子坐下来学习考试。要做到这一点非常困难,但是如果每次完成一章/主题时都给他一块巧克力,他就会明白,如果他继续学习,他会得到更多的巧克力棒。所以他会有一些学习考试的动机。
②孩子代表着Agent代理 。奖励制度和考试代表了Environment环境。今天的题目是类似于强化学习的States状态。所以,孩子必须决定哪些话题更重要(即计算每种行为的价值)。这将是我们的工作的 Value-Function价值方程。所以,每次他从一个国家到另一个国家旅行时,他都会得到Reward奖励,他用来在时间内完成主题的方法就是我们的Policy决策。

Rewards

所有的目标都可以用最大化的预期结果来描述积累的奖励。
在这里插入图片描述

Agent and Environment

在这里插入图片描述

History

history包含了一次经历中全部的observation、action和reward。

在这里插入图片描述

三种State

agent state 是 agent 内部状态,用于通过 observation 得到输出的 action。

environment state 是环境的私有状态,用于通过agent 的 action 得到定输出的 reward 和 observation。

information state 包含全部history中的information,是马尔可夫状态。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Inside An RL Agent(Major Components )

An RL agent may include one or more of these components:
Policy: agent’s behaviour function
Value function: how good is each state and/or action
Model: agent’s representation of the environment
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Problems within Reinforcement Learning

RL代理人的分类方式

按照有无价值方程和策略分类
在这里插入图片描述
按照有无模型分类
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值