1.什么是强化学习

最新推荐文章于 2024-08-14 22:29:49 发布

葫芦串

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量1.2k

点赞数 1

分类专栏：笔记强化学习 David Silver强化学习课程文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/weixin_40593865/article/details/117111335

版权

笔记同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

强化学习

1 篇文章 0 订阅

订阅专栏

David Silver强化学习课程

1 篇文章 0 订阅

订阅专栏

本文详细解析了强化学习的关键组成部分，包括状态、动作、奖励、策略和动态环境。阐述了强化学习的特点，如无监督、反馈滞后等，并介绍了agent、value function、policy和模型的不同类型。还区分了强化学习与规划的区别，以及预测与控制的概念。最后概述了MDP的基本构成和解决方法，涉及状态转移概率和贝尔曼方程。

摘要由CSDN通过智能技术生成

强化学习组成部分：

状态/观测值（state/observation）：当前情况；
动作（action）：当前采取的动作以及下一步的动作；
奖励（reward）：基于当前的state和action会获得的奖励；
策略（policy）：如何做决策；
动态环境（environment dynamics）:包括转移矩阵或者环境的核函数

强化学习有以下特点：

无监督
反馈滞后
时间重要，顺序进程
无独立同分布假设，agent根据环境影响采取行动

即通过积累求最大化的问题
记录历史参数：
$H_t = A_1,O_1,R_1,A_t,O_t,R_t$
agent的作用：H到A的合理映射，不过在强化学习中，通常使用state来取代history
$S_t^a = f(H_t)$
state($ S_t^e $)以observation的形式来影响agent,在强化学习中，当agent获取全部状态信息时
$O_t = S_t^a = S_t^e$
而某些时候，无法获取全部的环境状态信息，一种 $S_T^a$ 获取方法， $O_t = S_t^a = H_t < S_t^e$ ，还可以通过概率向量决定 $S_t^a = {p[S_1^e = S^1],……,p[S_t^e = S^t]}$ ，旧状态线性组合 $S_t^a = \sigma(S_{t-1}^aW_S+O_tW_o)$ 得到。

Markov性质:
$P[S_{t+1}|S_t]=P[S_{t+1}|S_1,……,S_t]$
在强化学习中反映为：
$H_{1:t}\to S_t \to H_{t+1:\infty}$
环境的状态变化具有Markov性。
强化学习agent的元素构成：

policy: a map from state to action 固定策略： $\pi(s)$ 随机策略 $\pi[a|s]=P[A=a|S=s]$
value function: prediction of future reward, $v_{\pi}(s) = E_{\pi}[R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+……|S_t = s]$ ，向前看的程度反映在折扣因子$\gamma $中。
model:分为transitions model:预测下个状态输出概率 $P_{ss'}^a = P[S'=s'|S=s,A=a]$ and reward model ：预测下个奖励 $R^a_s = E[R|S=s,A=a]$

agent 分类

Value Based 根据奖励
Policy Based 指明策略通过某种数据结构记录策略
Actor Critic 上两种策略结合
Model Free 不理解环境不知道状态转移概率利用 Policy /Value 指定策略求转移求策略
Model Based 知道状态转移概率建立关于环境的动态模型求策略

两类问题

强化学习：环境未知与环境交互获得最大奖励
规划：完全了解环境环境可以被确切地表达

预测和控制

预测prediction：奖励是多少
控制control：最优policy/action是啥

Markov Decision Processes

introduction

环境完全被观测； $P[S_{t+1}|S_t]=P[S_{t+1}|S_1,……,S_t]$ 定义一个MDP只需要状态集合S和状态转移概率（矩阵）P
状态转移概率： $P_{ss'} = P[S_{t+1} = s' | S_t = s]$ $\to$ 状态转移概率矩阵

贝尔曼方程

递归分解价值函数
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ v(s) &= E(G(t)…$
当前状态决定 $R_{t+1}$
矩阵形式：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ v = R+\gamma …$
需要明确知道所有状态集合
求解MDP的方式，矩阵求逆运算复杂度过高
MDP组成 $<S,A,P,R,\gamma>$

$S$ 状态集合
$A$ 动作集合
$P$ 状态转移概率矩阵 $P_{ss'}^a=P[S_{t+1}=s'|S_t=s,A_t=a]$
$R$ 奖励函数 $R_s^a=E[S_{t+1}|S_t=s,A_t=a]$
$\gamma$ 折扣系数 $\in[0,1]$

策略函数 policy function: $\pi(a|s)=P[A_t=a|S_t=s]$ 概率矩阵
$\pi_{ss'}^\pi = \sum_{a\in A}\pi(a|s)P_{s,s}^a\\ \R_s^\pi = \sum_{a\in A}\pi(a|s)R_s^a$
value function

state-value function $v_\pi(s) = E_\pi[G_t|S_t=s]$
action-value function $q_\pi(s,a) = E_pi[G_t|S_t=s,A_t=a]$
均值求解两种方式
状态转移概率
动作概率

课程链接

[1]https://www.bilibili.com/video/BV1kt411D76e

葫芦串

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.什么是强化学习

强化学习组成部分：状态/观测值（state/observation）：当前情况；动作（action）：当前采取的动作以及下一步的动作；奖励（reward）：基于当前的state和action会获得的奖励；策略（policy）：如何做决策；动态环境（environment dynamics）:包括转移矩阵或者环境的核函数强化学习有以下特点：无监督反馈滞后时间重要，顺序进程无独立同分布假设，agent根据环境影响采取行动即通过积累求最大化的问题记录历史参数：Ht
复制链接

扫一扫

专栏目录