强化学习笔记（一）强化学习基本概念

LittleDragorse

已于 2022-05-06 20:10:17 修改

阅读量681

点赞数

分类专栏：强化学习机器学习文章标签：机器学习人工智能

于 2022-05-03 15:58:28 首次发布

本文链接：https://blog.csdn.net/LittleDragorse/article/details/124459628

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

强化学习

2 篇文章 0 订阅

订阅专栏

本文详细介绍了强化学习的基础概念，如MDP、动态规划和各种算法（Q-learning、Sarsa、DQN等），并探讨了策略梯度、博弈理论应用及经典基线。涵盖无模型方法、控制策略、逆强化学习和深度强化学习的进展。

摘要由CSDN通过智能技术生成

强化学习笔记目录

强化学习基本概念
马尔可夫决策过程
动态规划
⽆模型预测⽅法
⽆模型控制⽅法
基于逼近器实现的强化学习算法
策略梯度⽅法
基于博弈理论的强化学习
强化学习基线算法
逆强化学习
深度强化学习

什么是强化学习

强化学习是一类基于最大化奖励的决策算法。

面临的主要困难

动作集不好定义
奖励不好设定
奖励可能非常稀疏
只适用于可以进行大量实验的场景

序贯决策过程

智能体在特定环境中产生一系列的动作，而这些动作会改变智能体的状态。

强化学习与其他机器学习算法的区别

产生的动作可能会影响数据的分布
不一定有即时的反馈

强化学习的基本元素

状态
状态集：分离散状态集和连续状态空间
动作
动作集：分离散动作集和连续动作空间
策略：状态集到动作集的映射；分确定策略和不确定策略
状态转移/环境：描述智能体在给定动作下的状态变化；分离散时间和连续时间；分确定型状态转移和随机型状态转移
奖励：环境对智能体的状态或动作好坏程度的反馈
回报：从某一初始状态出发的轨迹上的奖励累加和
折扣因子 $\gamma$ ：未来奖励对当前影响可能需要存在一定的折扣
价值：智能体在当前状态下回报的期望
最优价值：马尔可夫决策中有且仅有一个
最优策略：可能有一族

强化学习的分类

从得到最优决策的方法分类

基于值的

Q-learning
Sarsa
TD
DQN

基于策略的

policy gradient
actor-critic

直接优化动作序列

不借助价值函数和策略函数，通常依赖于模型

蒙特卡洛树搜索
DDP
iLQR

从决策与数据的交互看

在线学习

不依赖模型，智能体使用最新的策略

离线学习

利用模型或收集的观测数据进行训练

从是否有模型看

基于模型的

利用模型或模型生成的数据训练，可能需要利用观测数据构造模型

不基于模型的

直接利用观测数据训练价值或策略

LittleDragorse

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记（一）强化学习基本概念

强化学习笔记目录强化学习概述马尔可夫过程动态规划⽆模型预测⽅法⽆模型控制⽅法基于逼近器实现的强化学习算法策略梯度⽅法基于博弈理论的强化学习强化学习基线算法逆强化学习深度强化学习什么是强化学习强化学习是一类基于最大化奖励的决策算法。面临的主要困难动作集不好定义奖励不好设定奖励可能非常稀疏只适用于可以进行大量实验的场景序贯决策过程智能体在特定环境中产生一系列的动作，而这些动作会改变智能体的状态。强化学习与其他机器学习算法的区别产生的动作可能会影响数据的分布
复制链接

扫一扫

专栏目录