强化学习笔记系列一

最新推荐文章于 2024-07-08 14:50:23 发布

full_adder

最新推荐文章于 2024-07-08 14:50:23 发布

阅读量255

点赞数

分类专栏：强化学习文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/full_adder/article/details/110836838

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了强化学习的基础概念，包括马尔可夫决策模型（MDP）、价值迭代和策略迭代。通过举例说明了强化学习在决策过程中的应用，强调了长期收益的重要性。价值函数和Bellman期望方程被用来评估和优化策略。强化学习算法旨在找到最大化长期价值的策略，适用于规则明确、环境相对静态的场景，如游戏等。

摘要由CSDN通过智能技术生成

强化学习入门-1

2020.12.7

背景

人类学习的基本动力是菜——沃.兹基硕德

强化学习是近年较当红的炸子鸡。所谓 强化学习 ，表示的是一种实体与环境的交互，是寻找一个得到最优态势策略的问题。白话言，如何在每个命运的节点，都能做出最正确的选择？
一个例子，作为命定的主角，上小学的你兜里有五块钱，你路过小卖铺，非常想吃可爱多冰淇淋，但你一个月只有这五块零花钱，世界线在此分开。

短期收益：你一咬牙一跺脚，买了！你收获了吃冰淇淋的快乐，并长胖了一斤。
长期收益：你一步三回头的离开了小卖铺，但是由于攒下了这五块钱，下个月成功的用十块钱买了你最爱的漫画单行本。
有博弈存在的情况：你快乐的吃到了巧克力味冰淇淋，但你阴险的老哥用五块钱买了一个漂亮头花送给了皇太后。太后心甚悦，决定把你下个月的零花钱挪给你哥。

由此可见，在现实中，由于环境的复杂性，决策的长期获益难以估计，是故当今的强化学习更多的用在规则固定，缺少随机性的事件上，最典型的就是游戏。从围棋象棋等传统棋类对抗游戏到星际争霸等大型网络游戏，强化学习都有较好的表现。

马尔可夫决策模型（MDP）

$M = (S, A, T, R)$
强化学习，可表述为决策的集合。一个决策过程由四要素构成：

S：当前状态，比如兜里有五块钱。
A：动作，比如买冰淇淋。
T：状态转移概率，比如买冰淇淋动作执行后，下一状态有0.9概率吃到冰淇淋，0.1概率冰淇淋掉地死无全尸。
R：回报，比如长了半斤肉。

具体可表述为，在状态 $S_i$ 下选择进行动作 $A_j$ ，按照 $T$ 的概率分布转移到下一状态 $S_{i+1}$ ，获得回报 $R_i$ 。定义在状态下选择动作的策略映射为 $\pi:S \rightarrow A$ 。注意，整个模型中存在两个概率分布，一个是策略，一个是不同动作产生的下一状态，两者是不同的。
正如下棋时每步落子的目的都是赢，短期的即时利益并不是我们最想得到的，在此对长期收益定义如下：
在这里插入图片描述
$\gamma$ 折扣率取值[0,1]，表示跨过时间长河传回来的收益会有些损耗，在考虑中占少一些的比例。
为了评估长期利益，当今强化学习的训练算法存在两种走向。

价值迭代与策略迭代

价值迭代
一种较为贪心的训练方法，不预加约束，直接评估最优价值，迭代公式如下：

其更新目标为每个状态S的长期价值。
策略迭代
先预设一个策略，之后进行当前策略下最优长期价值的迭代

之后对策略进行优化

价值函数

我们的目标是寻找能够获得最大价值的策略，以此决定每一步状态下的动作，在此对两个价值函数进行定义。

状态价值函数

当前状态s，特定策略下的长久期望。
动作价值函数

当前状态s，选择动作a的长期期望，与前者是棋拿在手里与落了一子的区别，只多执行了一步动作。

Bellman期望方程

将状态价值函数展开，
$V_{ \pi }(s)=\sum_a \pi(a|s)(R(s,a)+\gamma\sum_{s'}(P(s'|a,s)V_{\pi}(s')))$
同理，动作价值函数可表示为：
$Q_{ \pi }(s,a)=R(s,a)+\gamma\sum_{s'}(P(s'|a,s)V_{\pi}(s'))$
可以清楚看到
$V_{ \pi }(s)=\sum_a \pi(a|s)Q_{ \pi }(s,a)$
故，我们的任务可由下式表达：
$max(V_{\pi}(s))$ 当前状态下所有可能动作与后续。
$max(Q_{\pi}(s,a))$ 当前状态下执行某动作后续
分别对应价值迭代与策略迭代。

参考

1: https://zhuanlan.zhihu.com/p/25319023
2: http://nooverfit.com/wp/15-%E5%A2%9E%E5%BC%BA%E5%AD%A6%E4%B9%A0101-%E9%97%AA%E7%94%B5%E5%85%A5%E9%97%A8-reinforcement-learning/