强化学习简介及马尔科夫决策过程

最新推荐文章于 2024-03-12 15:53:35 发布

飞剑客阿飞

最新推荐文章于 2024-03-12 15:53:35 发布

阅读量306

点赞数

分类专栏：学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/beibei8080/article/details/103039357

版权

本文介绍了强化学习的基本概念，强调它是一种无标签的学习方式，通过奖励信号指导智能体学习最佳策略。讨论了强化学习的建模，包括环境状态、动作、奖励和策略等要素，并详细解释了马尔科夫决策过程（MDP）和其简化假设。还涵盖了动作价值函数、贝尔曼方程以及强化学习的优缺点。

摘要由CSDN通过智能技术生成

强化学习分享

陈迪用户策略部 2019年11月12日

1. 什么是强化学习

强化学习（reinforcement learning, RL）是近年来大家提的非常多的一个概念，那么，什么叫强化学习？

强化学习是机器学习的一个分支，和监督学习，非监督学习并列。

参考文献[1]中给出了定义：

Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.

即强化学习是通过学习将环境状态转化为动作的策略，从而获得一个最大的回报。

举个栗子[2]，在flappy bird游戏中，我们想设计一个获得高分的策略，但是却不清楚他的动力学模型等等。这是我们可以通过强化学习，让智能体自己进行游戏，如果撞到柱子，则给负回报，否则给0回报。（也可以给不撞柱子持续给1点回报，撞柱子不给回报）。通过不断的反馈，我们可以获得一只飞行技术高超的小鸟。

通过上面例子，我们可以看到强化学习的几个特性[3]：

没有label，只有奖励（reward）
奖励信号不一定是实时的，很有可能延后的。
当前的行为影响后续接收到的数据
时间（序列）是一个重要因素

2. 强化学习的建模

上面的大脑代表我们的智能体，智能体通过选择合适的动作(Action)$At$，地球代表我们要研究的环境，它拥有自己的状态模型，智能体选择了合适的动作$At$，环境的状态$St$发生改变，变为$S{t 1}$，同时获得我们采取动作$At$的延迟奖励$Rt$,然后选择下一个合适的动作，环境状态继续改变……这就是强化学习的思路。

在这个强化学习的思路中，整理出如下要素[4]：

（1）环境的状态$S$，$t$时刻环境的状态$S_t$是它的环境状态集中的某一个状态；

（2）智能体的动作$A$，$t$时刻智能体采取的动作$A_t$是它的动作集中的某一个动作；</

最低0.47元/天解锁文章

飞剑客阿飞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。