强化学习Day1

学习目标

  1. 初识强化学习
  2. 马尔可夫过程
  3. 动态规划

1. 初识强化学习

1.1 强化学习和监督学习的区别

  1. 强化学习没有定义好的训练数据,监督学习需要输入有标签的数据
  2. 强化学习训练的核心是在决策过程中尽可能获得多的奖励,监督学习的核心是尽可能预测值与实际值相同
  3. 强化学习多适用于决策任务,监督学习适用于分类和回归

1.2 强化学习基础概念

智能体就是在强化学习过程中的主角。获取环境中的状态,利用状态输出决策,从环境获得奖励。
奖励就是环境给的反馈,赢了+1分,输了-1分。
序列决策就是一系列的动作:上升,下降
动作空间就是智能体可以做的动作:上升,下降
智能体的组成部分包含策略,价值函数,模型
策略
价值函数对当前状态进行评估,评估智能体进入某个状态后带来的奖励
模型RL智能体&免模型RL智能体

1.3 强化学习练习

  1. 问:强化学习的基本结构是什么
    答:智能体–动作–环境–状态–奖励
  2. 问:强化学习相对于监督学习为什么训练过程会更加困难?
    答:因为强化学习的其中一个特点是延迟奖励,相对于监督学习来说需要更长的时间和更复杂的步骤才能评价结果。
  3. 问:强化学习的基本特征有哪些?
    答:试错探索,从环境中获得延迟的奖励,数据是时间关联的数据,非独立同分布
  4. 状态和观测有什么关系?
    答:状态时对世界的完整描述,观测是对状态的描述。状态相对于观测来说是完整的,不会遗漏。
  5. 问:强化学习智能体可以分为几类
    答:基于价值的和基于策略的
  6. 问:基于价值的和基于策略的智能体有什么区别
    答:基于策略的是静态的,决策方式是根据给定的状态从动作集合中选择一个动作依据。而基于价值的智能体就不需要制定策略,通过价值表格来选取价值最大的动作。基于价值的是不连续的,离散的。

2. 马尔可夫过程

2.1 马尔可夫的性质

未来的状态只取决于现在

2.2 马尔可夫决策

策略定义了在某一个状态应该采取什么样的动作。知道当前状态后,我们可以把当前状态代入策略函
数来得到一个概率

3. 动态规划

3.1 动态规划基础概念

最优子结构
重叠子问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值