深度强化学习基础(一):RL中的基本概念

本文深入解析了强化学习的基本概念,包括智能体、环境、状态、观察、动作、策略与价值函数。探讨了如何通过policy函数控制agent,以及如何通过价值学习找到最优行动。重点讲解了随机性在强化学习中的体现和处理方式,以及如何通过期望和折扣回报来衡量决策效果。
摘要由CSDN通过智能技术生成

目录

强化学习是什么?

强化学习能做什么?

关键概念和术语

概率论

术语

 AI如何控制agent

 策略学习--学习policy函数​

价值学习--学习最优动作价值函数 

总结

强化学习是什么?

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习能做什么?

计算机利用强化学习在模拟器中控制机器人。

用于复杂的战略游戏(围棋和Dota)。

关键概念和术语

强化学习的最主要特征是智能体和环境。环境是智能体生活并与之交互的世界。在交互的每一步,智能体会看到(可能是部分的)对世界状态的观察,然后决定要采取的行动。当智能体对其进行操作时,环境会发生变化,但也可能会自行发生变化。

智能体还感知来自环境的奖励信号,一个告诉它当前世界状态好坏的数字。的目标是最大化其累积奖励,称为回报。

概率论

随机变量:未知的量,值取决于未知的量,值取决于一个随机事件的结果。概率密度函数:随机变量在某个确定的取值点附近的可能性。期望

随机抽样

术语

状态s对世界状态的完整描述。

观察o状态的部分描述,可能会省略信息。

在深度强化学习中,我们几乎总是用实值向量、矩阵或高阶张量来表示状态和观察结果。例如,视觉观察可以由其像素值的 RGB 矩阵表示;机器人的状态可以用它的关节角度和速度来表示。

动作a给定环境中所有有效动作的集合。策略\pi :智能体用来决定采取什么行动的规则。可是确定性的,表示为\mu

a_{t}=\mu (s_{t}),

或者可能是随机的,表示为\pi

a_{t\sim \pi (\cdot|s_{t} )}

给定状态s做出的动作

上图中,agent的动作是随机的(随机抽样得到的),根据policy函数输出的概率来做动作。

奖励R取决于世界的当前状态,刚刚采取的行动,以及世界的下一个状态。

r_{t}=R(s_{t},a_{t},s_{t+1})^{}

状态转移:可以是随机的,随机性来自环境(世界)。

agent(智慧体)与环境(世界)交互: 

 

 强化学习的随机性:

1、动作的随机性。

动作是根据policy函数\pi随机抽样得到的,利用policy函数控制agent,给定当前状态s,agent动作a是按照policy函数\pi输出的概率来随机抽样。 

2、状态转移的随机性

 

假定agent做出某一动作,环境就要生成下一个状态{S}'{S}'具有随机性,环境用状态转移函数p算出概率,然后用概率来随机抽样得到下一个状态{S}'

轨迹:一系列状态和动作,

\tau =(s_{0},a_{0},s_{1},a_{1},...)

回报:未来的累计奖励。把t时刻的return记为U_{t},

U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...

问题:奖励{\color{Red} {\color{Red} }}{\color{Red} }R_{t}R_{t+1 }一样重要吗?

{\color{Red} {\color{Red} }}{\color{Red} }R_{t}>R_{t+1 },t时刻的奖励要比t+1时刻的奖励重要,因为未来具有不确定性。即R_{t+1 }的权重比{\color{Red} {\color{Red} }}{\color{Red} }R_{t}

的权重小。 

折扣回报:U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{^{2}}R_{t+2}+\gamma ^{3}R_{t+3}+...

折扣率\gamma:0到1之间,折扣率为超参数,需要自己调,折扣率对强化学习的效果有一定的影响。

回报的随机性:U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{^{2}}R_{t+2}+\gamma ^{3}R_{t+3}+...

假如游戏结束,所有的奖励都观测到了,均为数值,用r表示,若t时刻还没结束,奖励为随机变量没有观测到,用R表示,由于U_{t}依赖于R,所以 U_{t}为随机变量。

随机性的两个来源:

1、动作随机。

policy函数\pi用s作为输入,输出一个概率分布,动作a从概率分布中随机抽样得到。

2、下一个状态的随机。

给定当前动作a和状态s,下一个状态{s}'是随机的,状态转移函数p输出个概率分布,环境从概率分布中随机抽样得到新的状态{s}'

对于任意i\geq t,奖励R_{i}取决于S_{i}A_{i }

给定S_{t},returnU_{t}的依赖于未来所有的动作A_{t},A_{t+1},A_{t+2},...和状态S_{t+1},S_{t+2},...

动作价值函数:

由于U_{t}为随机变量,为了评估当前形势,可以对U_{t}求期望,将里面的随机性利用积分积掉得到的为实数。

例如:抛硬币之前不知道结果,假设正面计1,反面计0,已知两种结果概率为0.5,则期望为1*0.5+0*0.5=0.5。

期望如何求,把U_{t}当做未来所有的动作A_{t},A_{t+1},A_{t+2},...和状态S_{t},S_{t+1},S_{t+2},...的函数,未来的动作A和状态S都有随机性,动作A的概率密度函数是policy函数\pi,状态S的概率密度函数是状态转移函数p,除了S_{t}=s_{t}A_{t}=a_{t},其余动作和状态都被积掉了。

动作价值函数Q_{\pi}(s_{t},a_{t})直观意义:用policy函数\pi在状态s_{t}下做动作a_{_{t }}是好还是坏。给动作打分。

不同的policy函数\pi就会有不同的Q_{\pi}(s_{t},a_{t}),即不同策略,价值不同。

最优动作价值函数:

 取使Q_{\pi}(s_{t},a_{t})最大化的\pi,此时最优动作价值函数Q^{^{*}}(s_{t},a_{t})与policy函数\pi无关。

Q^{^{*}}(s_{t},a_{t})直观意义:对动作a做评价。例如:下围棋时,将棋子放在某个位置的胜算有多大。

 状态价值函数:

状态价值函数V_{\pi }(s_{t})是动作价值函数Q_{_{\pi }}(s_{t},A)的期望,把动作A作为随机变量,A\sim \pi (\cdot |s_{t}),A的概率密度函数为\pi,关于A求期望把A消掉,此时V_{\pi }(s_{t})只跟\pis_{t}有关。

V_{\pi }(s_{t})直观意义:可以告诉我们当前局势好不好。

 AI如何控制agent

 策略学习--学习policy函数\pi (a|s)

利用policy函数\pi (a|s)控制agent做动作,每观测一个状态s_{t},就把s_{t}作为\pi (a|s)函数的输入,\pi (a|s)函数会输出每一个动作的概率,用这些概率做随机抽样得到a_{_{t }},agent执行动作a_{_{t }}

价值学习--学习最优动作价值函数 Q^{*}(s,a)

agent可以根据Q^{*}(s,a)函数来做动作,Q^{*}(s,a)函数告诉我们,当状态处在s_{t},那么做动作是好还是坏,每观测到一个s_{t},将s_{t}作为Q^{*}(s,a)函数的输入,让Q^{*}(s,a)函数对每一个动作都做一个评价,这样就知道每一个动作的Q值,选Q值最大(因为Q值是对未来奖励和的期望)的动作作为a_{_{t }}

总结

强化学习的目的就是学习policy函数\pi (a|s)和最优动作价值函数 Q^{*}(s,a)

 

 

 

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值