深入浅出的强化学习笔记(一)——概述

最新推荐文章于 2024-08-11 18:21:52 发布

烧煤的快感

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量2.9k

点赞数

分类专栏：机器学习文章标签：算法人工智能强化学习 AI 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gg_18826075157/article/details/78162039

版权

机器学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

深入浅出的强化学习笔记(一)——概述

本系列将针对强化学习，从基础概念到最近十分热门的模型求解算法Deep Q-learning(即DQN)，全面讲解强化学习的发展历史和算法原理。

1.强化学习的特征

强化学习与有监督学习有几分相似，但它并不存在明确的答案或者标签，而有一个看上去类似但实则大相径庭的概念——报酬。

下面以踢足球的进攻为例，把强化学习和有监督学习的区别再讲清楚一点。为了完成一次进攻，球员需要完成传球、运球、假动作等等一系列的步骤。

对于有监督学习来说就是，你进行每一个步骤时都能听到场外一个个观众在讨论，“我觉得向左后方传球是个不错的办法”、“我觉得向右前方运球推进简直是胡来”等等，然后球员根据听到的讨论进行决策，然后通过完成这一系列的决策从而最终进球。

而对于强化学习来说，它只知道进球的报酬是3分，获得一次罚球机会的报酬是2分，绕过一名防守球员的报酬是1分，被断球的报酬是-2分等等。具体到每一个步骤到底如何抉择才是最好的，就没有人告诉它了，他只能在脑海中不断演算分析、推倒重来，最后学习得到每一个步骤的最佳决策。

那么到底如何才能根据最后的报酬推导出每一次阶段性决策的评价得分呢？显然，我们只能进行逆向推导。

逆向推导

2.马尔科夫决策过程

下面介绍马尔科夫决策过程的几个重要参数：

状态S：State，比如下围棋时某一个时刻的当前棋局；
行动A(s)：Actions，根据当前的状态s，选择进行动作a的概率；
转移T(s’|s, a)：Transition，在状态s时，经过行动a，然后状态变化到s’的概率；
报酬R(s, a)：Rewards，状态s时进行动作a对你的有利程度；
策略 $\pi(s) -> a$ ：Policy，当处于状态s时，最应该作出的行动a

如果感觉还是不够清晰，可以参考下下面的这幅图（街头霸王）：

街头霸王

状态：自己的位置、自己的血量、敌人的位置、敌人的血量……
行动：当前时刻有效的所有按键组合

这种情况下不仅要考虑到获胜概率的最大化（路径的总报酬尽量大），还要兼顾到游戏时间有限，必须速战速决（路径要尽量短），同时随着推导路径长度的不断增长，不确定因素也会增多，求得的获胜概率的可信度也会不断下降。

于是，我们需要加入一个报酬衰减因子 $\lambda$
然后，我们再定义一个新的参数，来表示某状态的有利程度评价值

U π (s) = E [\sum t \infty λ t R (s t) | π, s 0 = s] ①

$U^{\pi}(s) = E\big[\sum\limits_{t}^{\infty}\lambda^{t}R(s_t)|\pi,s_0=s\big]①$

回到最初的问题，我们关心的是如何做出当前状态s下的最佳决策，显然有下面的公式

π * (s) = a r g m a x a \sum s' T (s, a, s') U (s') ②

$\pi^{*}(s) = \mathop{argmax}\limits_{a}\sum\limits_{s'}T(s, a, s')U(s')②$

显然，我们若是每一个决策都选择有利程度最大的那个决策的话，我们的评价函数就要改写一下了（①式和②式联立，主要是为了消去 $\pi(s)$ 这个变量）

U (s) = R (s) + λ m a x \sum s' T (s, a, s') U (s')

$U(s) = R(s) + \lambda\mathop{max}\sum\limits_{s'}T(s, a, s')U(s')$

上面的式子被称为Bellman equation，这样我们做出决策时就仅需要考虑当前的状态s即可，大大简化了算法模型的训练。

烧煤的快感

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。