强化学习基础

#强化学习基础

##1 基本定义

强化学习:由智能体和环境组成;解决智能体如何在复杂多样的环境中使其获得的奖励最大化的问题;

强化学习与监督学习区别

(1)强化学习的样本是序列数据,监督学习的样本是独立同分布的;

(2)强化学习的学习器无法告知下一步的正确动作,需要通过多次尝试去发现能获得最大奖励的动作;

(3)强化学习通过不断的探索和利用来完善自身能力;

(4)使用监督学习能立即获得指导信号,强化学习只有奖励信号,且是延迟的;

强化学习基本特征

(1)需要不断探索环境获取对环境的理解;

(2)Agent会从Environment中获得延迟奖励;

(3)训练过程中,数据与时间关联;

(4)强化学习中Agent的Action能影响后续反馈;

##2 序列决策

序列决策过程:智能算法对环境的一系列反馈做出的相对应决策过程。

状态与观测:状态是对世界的完整描述,信息没有隐藏;观测是对状态的部分描述,存在信息遗漏;在强化学习中总是用实值的向量、矩阵或更高阶的张量来表示状态和观测。

##3 动作空间

定义:有效的动作集合被称为动作空间;包括离散动作空间和连续动作空间。

##4智能体的组成成分和类型

一个强化学习智能体包含策略、价值函数和模型三个部分。

策略:策略是智能体的动作模型,决定了其动作;实质是一种用于把输入状态变成动作的函数;策略分为随机性策略和确定性策略。随机性策略:智能体对于观测的结果以某种概率决定下一步动作;确定性策略:智能体直接采取最有可能的动作。

价值函数:函数值是对未来奖励的预测,用于评估状态的好坏;价值函数越大,越有利;

模型:模型决定了下一步状态,下一步状态取决于当前的状态和采取的动作。模型由状态转移概率和奖励函数两部分组成。转移函数为动作间的转移概率,奖励函数为智能体在当前状态彩群某个动作得到的奖励大小。

##4 强化学习智能体类型

###4.1 基于价值的智能体与基于策略的智能体

基于价值的智能体显式地学习价值函数,隐式地学习策略;策略从学到的价值函数里推算出来。

基于策略的智能体直接学习策略,给其一个状态,就能输出对应动作的概率。

###4.2 有模型强化学习智能体与免模型强化学习智能体

有模型强化学习智能体通过学习状态的转移来采取动作。根据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习。

免模型强化学习智能体通过学习价值函数和策略函数进行决策;模型内没有环境转移的模型,不对环境建模,直接与真实环境进行交互来学习到最优策略。

学习规划是序列决策的两个基本问题;

探索利用是强化学习的两个核心问题。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值