文章目录
前言
记录一些强化学习的基础概念以及马尔可夫决策过程的基础概念
一、关于强化学习
特点
基本要素
奖励-reward
决策序列
智能体与环境
状态
包括环境状态、智能体状态、信息状态(包含历史上所有有用的信息,具有马尔可夫的性质,未来的状态只与当前状态有关,与过去的状态无关)
完全可观测环境与部分可观测环境
智能体组成
策略
价值函数
模型
方法分类
基于策略更新与优化
基于价值函数、基于策略梯度、基于执行者-评论者(结合价值函数与策略梯度的方法)
是否依赖模型
基于模型、无模型的强化学习方法
环境返回的回报函数
正向强化学习、逆向强化学习(从专家示例中学习回报函数)
强化学习中的问题
学习与规划
探索与利用
强化学习类似于一个试错的过程,从环境的交互中发现好的策略,探索环境中的更多信息,有选择性的放弃某些奖励,利用已知信息最大化回报,利用与探索的平衡很重要。
预测与控制
预测:给定策略下,估计某个状态未来的累积奖励
控制:最大化未来的累计奖励,找到最优策略
二、马尔可夫决策过程
马尔可夫过程
马尔可夫性质
状态转移矩阵
描述了不同的状态之间转移的概率
马尔可夫过程
马尔可夫奖励过程
回报
折扣因子的作用:
价值函数
马尔可夫奖励过程的贝尔曼方程
贝尔曼矩阵形式
贝尔曼方程的解
马尔可夫决策过程
策略
MDP的价值函数
贝尔曼期望方程
状态价值函数与动作价值函数之间的关系
最优价值函数
最优策略
寻找最优策略
贝尔曼最优方程