斯坦福CS234增强学习——(1)简介

增强学习概述

增强学习的基本要素

在这里插入图片描述
  增强学习的关键所在,尤其是第2,3点是将增强学习与其他机器学习进行区分的重要因素。如下图所示,分别对其进行了阐述。这里我们定义了policy的含义:policy是指从过去的经验到决策行为的一种映射,较为严格的形式是,给定状态下的动作分布(当已知状态后,应该采取什么样的行动)。
在这里插入图片描述
censor:审查

增强学习与其他机器学习方法的区别

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

关于模仿学习

在这里插入图片描述

在不确定性下的时序决策(sequential decision making under uncertainty)

在这里插入图片描述

一些简单的例子

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

有关reward的一个小问题

在这里插入图片描述
  我们忽略学生主动学习的可能性,且认为加法更加简单,则在这种前提下,若采用上述的reward策略,则agent会给学生愈发简单的加法题来获得更多的reward,但是这显然是不对的,所以一定要恰当的选择reward。

机器教学

  机器教学的一个想法就是有两个intelligent agent且知道各自在对对方进行教学则会发生什么,下面给出一个经典的例子:
在这里插入图片描述
  图中由n个数据点,进行二分类,如果自己想找到进行分类的线,通过策略性地要求人们标记出一些点,需要logn的复杂度;如果已知由另一个agent进行教学,则O(1)复杂度即可,因为教学者会标出来+与-的边缘,从而直接确定分类的线。

关于增强学习流程图中的一些定义

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  agent只接触了world的一部分,比如作为一个人,眼睛只能看一部分世界,永远看不到后脑勺。

马尔可夫假设

在这里插入图片描述
  (个人理解)显然两个例子都不是Markov state,因为(1)不同吃药的序列动作会导致血压的不同变化情况(2)推荐的商品会影响人们浏览商品的意图。即涉及到了历史情况,而非仅仅是当前状态。
在这里插入图片描述

完全观察马尔可夫决策过程(MDP)

在这里插入图片描述

部分观察马尔可夫决策过程(POMDP)

在这里插入图片描述
  如打扑克的过程,看不到其他人手中的牌,但是可以看到自己的牌和已经打出的牌,并据此做出决策。

时序决策过程的类型

Bandit

在这里插入图片描述

MDP和POMDP

在这里插入图片描述

World改变的特点

在这里插入图片描述
  我们可以认为只要有足够好的模型就可以将过程建立为确定性的,但是由于很难做到,我们通常将模型近似建立为随机的。

增强学习算法的组成

模型

在这里插入图片描述
  reward取期望是因为采取acttion可能到达不同的state,有一个关于state的分布,对这个分布取一个期望。

策略(policy)

在这里插入图片描述

价值(value)

在这里插入图片描述

关于RL agent

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值