强化学习笔记系列一


2020.12.7

背景

  • 人类学习的基本动力是菜——沃.兹基硕德

强化学习是近年较当红的炸子鸡。所谓 强化学习 ,表示的是一种实体与环境的交互,是寻找一个得到最优态势策略的问题。白话言,如何在每个命运的节点,都能做出最正确的选择?
一个例子,作为命定的主角,上小学的你兜里有五块钱,你路过小卖铺,非常想吃可爱多冰淇淋,但你一个月只有这五块零花钱,世界线在此分开。

  1. 短期收益:你一咬牙一跺脚,买了!你收获了吃冰淇淋的快乐,并长胖了一斤。
  2. 长期收益:你一步三回头的离开了小卖铺,但是由于攒下了这五块钱,下个月成功的用十块钱买了你最爱的漫画单行本。
  3. 有博弈存在的情况:你快乐的吃到了巧克力味冰淇淋,但你阴险的老哥用五块钱买了一个漂亮头花送给了皇太后。太后心甚悦,决定把你下个月的零花钱挪给你哥。

由此可见,在现实中,由于环境的复杂性,决策的长期获益难以估计,是故当今的强化学习更多的用在规则固定,缺少随机性的事件上,最典型的就是游戏。从围棋象棋等传统棋类对抗游戏到星际争霸等大型网络游戏,强化学习都有较好的表现。

马尔可夫决策模型(MDP)

M = ( S , A , T , R ) M=(S,A,T,R) M=(S,A,T,R)
强化学习,可表述为决策的集合。一个决策过程由四要素构成:

  • S:当前状态,比如兜里有五块钱。
  • A:动作,比如买冰淇淋。
  • T:状态转移概率,比如买冰淇淋动作执行后,下一状态有0.9概率吃到冰淇淋,0.1概率冰淇淋掉地死无全尸。
  • R:回报,比如长了半斤肉。

具体可表述为,在状态 S i S_i Si下选择进行动作 A j A_j Aj,按照 T T T的概率分布转移到下一状态 S i + 1 S_{i+1} Si+1,获得回报 R i R_i Ri。定义在状态下选择动作的策略映射为 π : S → A \pi:S \rightarrow A π:SA。注意,整个模型中存在两个概率分布,一个是策略,一个是不同动作产生的下一状态,两者是不同的。
正如下棋时每步落子的目的都是赢,短期的即时利益并不是我们最想得到的,在此对长期收益定义如下:
在这里插入图片描述
γ \gamma γ折扣率取值[0,1],表示跨过时间长河传回来的收益会有些损耗,在考虑中占少一些的比例。
为了评估长期利益,当今强化学习的训练算法存在两种走向。

价值迭代与策略迭代

  • 价值迭代
    一种较为贪心的训练方法,不预加约束,直接评估最优价值,迭代公式如下:
    公式来源http://nooverfit.com/wp/15-%E5%A2%9E%E5%BC%BA%E5%AD%A6%E4%B9%A0101-%E9%97%AA%E7%94%B5%E5%85%A5%E9%97%A8-reinforcement-learning/
    其更新目标为每个状态S的长期价值。
  • 策略迭代
    先预设一个策略,之后进行当前策略下最优长期价值的迭代

    之后对策略进行优化
    在这里插入图片描述

价值函数

我们的目标是寻找能够获得最大价值的策略,以此决定每一步状态下的动作,在此对两个价值函数进行定义。

  • 状态价值函数
    在这里插入图片描述
    当前状态s,特定策略下的长久期望。
  • 动作价值函数
    在这里插入图片描述
    当前状态s,选择动作a的长期期望,与前者是棋拿在手里与落了一子的区别,只多执行了一步动作。

Bellman期望方程

将状态价值函数展开,
V π ( s ) = ∑ a π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ( P ( s ′ ∣ a , s ) V π ( s ′ ) ) ) V_{ \pi }(s)=\sum_a \pi(a|s)(R(s,a)+\gamma\sum_{s'}(P(s'|a,s)V_{\pi}(s'))) Vπ(s)=aπ(as)(R(s,a)+γs(P(sa,s)Vπ(s)))
同理,动作价值函数可表示为:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ( P ( s ′ ∣ a , s ) V π ( s ′ ) ) Q_{ \pi }(s,a)=R(s,a)+\gamma\sum_{s'}(P(s'|a,s)V_{\pi}(s')) Qπ(s,a)=R(s,a)+γs(P(sa,s)Vπ(s))
可以清楚看到
V π ( s ) = ∑ a π ( a ∣ s ) Q π ( s , a ) V_{ \pi }(s)=\sum_a \pi(a|s)Q_{ \pi }(s,a) Vπ(s)=aπ(as)Qπ(s,a)
故,我们的任务可由下式表达:
m a x ( V π ( s ) ) max(V_{\pi}(s)) max(Vπ(s))当前状态下所有可能动作与后续。
m a x ( Q π ( s , a ) ) max(Q_{\pi}(s,a)) max(Qπ(s,a))当前状态下执行某动作后续
分别对应价值迭代与策略迭代。

参考

1: https://zhuanlan.zhihu.com/p/25319023
2: http://nooverfit.com/wp/15-%E5%A2%9E%E5%BC%BA%E5%AD%A6%E4%B9%A0101-%E9%97%AA%E7%94%B5%E5%85%A5%E9%97%A8-reinforcement-learning/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值