01强化学习基础以及马尔可夫决策过程


前言

记录一些强化学习的基础概念以及马尔可夫决策过程的基础概念


一、关于强化学习

特点

在这里插入图片描述

基本要素

奖励-reward

在这里插入图片描述

决策序列

在这里插入图片描述

智能体与环境

在这里插入图片描述

状态

包括环境状态、智能体状态、信息状态(包含历史上所有有用的信息,具有马尔可夫的性质,未来的状态只与当前状态有关,与过去的状态无关)

完全可观测环境与部分可观测环境

在这里插入图片描述
在这里插入图片描述

智能体组成

策略

在这里插入图片描述

价值函数

在这里插入图片描述

模型

在这里插入图片描述

方法分类

基于策略更新与优化

基于价值函数、基于策略梯度、基于执行者-评论者(结合价值函数与策略梯度的方法)

是否依赖模型

基于模型、无模型的强化学习方法

环境返回的回报函数

正向强化学习、逆向强化学习(从专家示例中学习回报函数)

强化学习中的问题

学习与规划

在这里插入图片描述

探索与利用

强化学习类似于一个试错的过程,从环境的交互中发现好的策略,探索环境中的更多信息,有选择性的放弃某些奖励,利用已知信息最大化回报,利用与探索的平衡很重要。

预测与控制

预测:给定策略下,估计某个状态未来的累积奖励
控制:最大化未来的累计奖励,找到最优策略

二、马尔可夫决策过程

马尔可夫过程

马尔可夫性质

在这里插入图片描述

状态转移矩阵

描述了不同的状态之间转移的概率
在这里插入图片描述

马尔可夫过程

在这里插入图片描述

马尔可夫奖励过程

在这里插入图片描述

回报

在这里插入图片描述
折扣因子的作用:
在这里插入图片描述

价值函数

在这里插入图片描述

马尔可夫奖励过程的贝尔曼方程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
贝尔曼矩阵形式
在这里插入图片描述

贝尔曼方程的解

在这里插入图片描述

马尔可夫决策过程

在这里插入图片描述

策略

在这里插入图片描述
在这里插入图片描述

MDP的价值函数

在这里插入图片描述

贝尔曼期望方程

在这里插入图片描述
在这里插入图片描述

状态价值函数与动作价值函数之间的关系

在这里插入图片描述
在这里插入图片描述

最优价值函数

在这里插入图片描述

最优策略

在这里插入图片描述

寻找最优策略

在这里插入图片描述

贝尔曼最优方程

在这里插入图片描述
在这里插入图片描述

求解最优方程

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值