强化学习形式与关系

LXYTSOS

于 2021-02-22 16:38:21 发布

阅读量408

点赞数

分类专栏：强化学习文章标签：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LXYTSOS/article/details/113884652

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

强化学习涉及智能体、环境、动作、奖励和状态等关键要素。智能体通过与环境交互，追求最大化累积奖励，如金融交易中的利润最大化、棋类游戏的胜利或电脑游戏的高分。奖励作为反馈，指导智能体强化其行为。环境是智能体行动的舞台，动作则分为离散和连续两种类型。状态表示环境的当前状况，智能体据此做出决策。

摘要由CSDN通过智能技术生成

在强化学习中有这么几个术语：智能体（Agent），环境（Environment），动作（Action），奖励（Reward），状态（State，有些地方称作观察，Observation）。

奖励（Reward）

在强化学习中，奖励是一个标量，它是从环境中周期性地获取的，取值可正可负，可大可小。奖励的作用是告诉智能体它做的动作到底好不好，奖励的反馈频率并没有限制，可以是在经过固定的时间步之后返回一次，也可以是在最后达到最终状态的时候返回，这种情况下，除了最后一次动作之外，其他动作对应的奖励都是0。

“强化学习”中的“强化”一词的来由是，智能体通过它获得的奖励来强化它的行为。奖励是局部的，它反映的是智能体最近的活动表现，并不是从开始到目前为止的表现。当然，某些行动能获得巨大的奖励，但并不意味着下一步仍旧能得到很好的奖励。这就像抢劫银行，如果不考虑后果，那眼前的奖励确实诱人。

智能体需要做的是，通过做一系列的动作与环境交互，使得它获得的累积奖励最大。下面用一些直观的例子来说明：

金融交易：对买卖股票的交易者来说，他们的奖励就是一定数量的利润。
国际象棋：这种情况下奖励是在比赛结束后获得的，是赢，是输还是平局。
电脑游戏：这种奖励反馈会比较明显，通常是杀敌数量或者游戏得分。

智能体（Agent）

智能体是与环境交互的人或物，可以做特定的动作，对环境进行观察获得当前状态并获得奖励，例如上面的例子中的智能体为：

金融交易：交易系统或交易者，对订单的执行做出决定。
国际象棋：人类玩家或电脑玩家。
电脑游戏：人类玩家或电脑玩家。

环境（Environment）

环境，可以理解成智能体执行动作的空间，大到宇宙空间，也可以小到一张棋盘。

动作（Action）

动作很好理解，就是智能体能在环境中做的事情，在强化学习中，动作分为离散动作和连续动作，比如左转右转就属于离散动作，转动30度这样的动作就属于连续动作。

状态（State）

状态同样很好理解，它是反映当前环境处于哪种状态，智能体通过观察这种状态来决定做什么动作，然后环境接收到这个动作之后，又会处于什么样的状态。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习形式与关系

在强化学习中有这么几个术语：智能体（Agent），环境（Environment），动作（Action），奖励（Reward），状态（State，有些地方称作观察，Observation）。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。