reinforce learning、强化学习、增强学习、RL

What is RL

通过不断尝试不同策略地种瓜,学会了一个(或几个)种出好瓜的策略π(即学习,或称训练)。利用学习得到的策略π,进行下一次的种瓜(即应用)。这个种瓜的过程,可以看做一个马尔科夫决策过程,这个过程在强化学习理论中的关键概念包括:动作、状态、奖赏、状态转移函数、累积奖赏等。

一些必要的说明

reinforce learning、强化学习、增强学习、RL是同一个概念。
参考书:西瓜书。
最新、前沿强化学习算法:a3c
领头企业:谷歌、百度

关键词

马尔科夫决策过程MDP(markov decision process)
状态 s
状态空间 S
动作 a
动作空间 A
状态转移函数 P
奖赏 R
状态-动作值函数(state-action value function) Q(s,a)
累积奖赏 V(x)
最终奖赏(即累积奖赏)
T步累积奖赏
γ折扣累积奖赏
第t步获得的奖赏值
策略 π
单步强化学习任务
多步强化学习任务
有模型学习(model based learning)
免模型学习
蒙特卡洛强化学习
Q-learning
Q 表 、Q look up table 、行为准则、
Q表的更新方法、更新行为准则
α go 打败李世石
使用Q表的形式来决策

步骤:

  1. 建立模型:即,确定A,X,P,R.
  2. 选择算法,如:仅利用、仅探索、softmax、E-贪心等。
  3. 结合实际进行训练,得到策略π.
  4. 使用π.

例子

1.种西瓜
2.K-摇臂赌博机

说人话

强化学习的目标:通过不断地尝试(或者说 学习),得到一个做好某件事的策略 π
,这里说的“做好某件事”,比如:种出好瓜。
强化学习的训练过程(或称学习过程)可以用MDP来描述。
训练结束后的应用:根据学得的策略π,做好对相应的某件事:根据某个当前状态获得对应的动作,这个动作会使累积奖赏最大 a=π( x ).

  • 累积奖赏最多的策略,即为最终学习 得到的策略。得到这一策略之后便是使用这条策略。
  • 强化学习的累积奖赏(最终奖赏)是多步动作之后才能得到的。
  • 最大化单步奖赏:假设一步动作之后就可以得到累积奖赏。

理论细节

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 连续动作空间
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

Q Learnintg

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

DQN

在这里插入图片描述
提出的原因,当状态(或动作)很多时,Q表就会变得及其庞大,并且不容易查询(费时)。
在这里插入图片描述

在这里插入图片描述

如何训练NN?

DDPG

一些概念:
Q value function 的更新规则:Q learning 算法
AC网络、
critic、actor、评论家、演员
学习过程(训练过程):可以看作是一个马尔科夫决策过程MDP(Markov Decision Process (MDP)。
策略:π(·),a_t = π( x_t )
Obtaining the PIDs parameters by determining the vector kt can be formulated as a Markov Decision Process (MDP) into the RL framework where an entity, called agent, makes its decisions as a function, π(·), of the current state of the robot, xt , i.e. kt = π(xt). The RL is an unsupervised learning approach for solving MDP problems, where the RL agent learns a policy, π(·), from direct interactions with its environment. At each time step, t, the agent observes the state, xt , and performs an action, kt , based on its current policy, π, and receives a scalar reward, rt , from the environment after the system transition occurs.
在这里插入图片描述
时间、训练批次
RL algorithms、RL agent
目标:The aim of the RL algorithms is to find an optimal policy π∗ that maximizes the expected future discounted rewards over time。
找到一个策略π(·),在0<t<tmax,得到总奖赏(或折扣奖赏)最大化。
解决方法:To solve the stated RL problem, actor–critic methods can be used.
policy function :
parameterized policy:
state value function: the value function provides a measures of how good those actions are.
parameterization:
parameterized actor function πθ:参数化的策略
DDPG:AC RL算法的一种,uses a state–action value function Q(x, k) as critic and a deterministic action selection function π for the actor。
Q value function的更新有很多种,最经典的是Q-learning 算法:
在这里插入图片描述
Q value function用于评价当前state下执行的action,at=π(xt)。这个评价对策略π(·)的更新有重大作用,作用如下:
critic provides information for training the actor。

论文理解

几个概念

评论家:评论当前时刻t下actor的表现。Q value function 实现,Q(x, k)
演员:执行action。π(x)实现。
为了防止以下发生
在这里插入图片描述
定义如下两个式子:

  1. parameterized actor function πθ
  2. performance objective function J:
    在这里插入图片描述
    那么梯度为:
    在这里插入图片描述
    actor和critic都可以用函数逼近器实现,函数逼近器一般又可以通过深度神经网络实现。
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值