01强化学习基础以及马尔可夫决策过程

最新推荐文章于 2024-09-15 15:29:29 发布

爱宇小菜涛

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量852

点赞数 20

分类专栏：强化学习文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_66988867/article/details/135257245

版权

强化学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

前言

记录一些强化学习的基础概念以及马尔可夫决策过程的基础概念

一、关于强化学习

特点

在这里插入图片描述

基本要素

奖励-reward

在这里插入图片描述

决策序列

在这里插入图片描述

智能体与环境

在这里插入图片描述

状态

包括环境状态、智能体状态、信息状态（包含历史上所有有用的信息，具有马尔可夫的性质，未来的状态只与当前状态有关，与过去的状态无关）

完全可观测环境与部分可观测环境

在这里插入图片描述

智能体组成

策略

在这里插入图片描述

价值函数

在这里插入图片描述

模型

在这里插入图片描述

方法分类

基于策略更新与优化

基于价值函数、基于策略梯度、基于执行者-评论者（结合价值函数与策略梯度的方法）

是否依赖模型

基于模型、无模型的强化学习方法

环境返回的回报函数

正向强化学习、逆向强化学习（从专家示例中学习回报函数）

强化学习中的问题

学习与规划

在这里插入图片描述

探索与利用

强化学习类似于一个试错的过程，从环境的交互中发现好的策略，探索环境中的更多信息，有选择性的放弃某些奖励，利用已知信息最大化回报，利用与探索的平衡很重要。

预测与控制

预测：给定策略下，估计某个状态未来的累积奖励
控制：最大化未来的累计奖励，找到最优策略

二、马尔可夫决策过程

马尔可夫过程

马尔可夫性质

在这里插入图片描述

状态转移矩阵

描述了不同的状态之间转移的概率
在这里插入图片描述

马尔可夫过程

在这里插入图片描述

马尔可夫奖励过程

在这里插入图片描述

回报

在这里插入图片描述
折扣因子的作用：

价值函数

在这里插入图片描述

马尔可夫奖励过程的贝尔曼方程

在这里插入图片描述

贝尔曼矩阵形式

贝尔曼方程的解

在这里插入图片描述

马尔可夫决策过程

在这里插入图片描述

策略

在这里插入图片描述

MDP的价值函数

在这里插入图片描述

贝尔曼期望方程

在这里插入图片描述

状态价值函数与动作价值函数之间的关系

在这里插入图片描述

最优价值函数

在这里插入图片描述

最优策略

在这里插入图片描述

寻找最优策略

在这里插入图片描述

贝尔曼最优方程

在这里插入图片描述

求解最优方程

在这里插入图片描述

爱宇小菜涛

关注

20
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。