【强化学习】第三章：有限马尔可夫决策过程

最新推荐文章于 2022-02-13 11:35:27 发布

学车辆的弟弟

最新推荐文章于 2022-02-13 11:35:27 发布

阅读量309

点赞数

分类专栏：强化学习文章标签：人工智能强化学习

本文链接：https://blog.csdn.net/m0_49280611/article/details/108929769

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

3.1 “智能体-环境”交互接口

下面先介绍一些基本的MDP概念。

智能体（agent）：用来学习并作决定的一个机器。可以是一个自动行走的机器人；可以是下围棋的阿法尔狗；也可以是一台自动驾驶的汽车。
环境（environment）：智能体以外并且与智能体有交互的任何东西都可以称之为环境。
状态（state）：所有可以用的信息（一般都是智能体所观测到的环境的信息），智能体可以用来决定下一步反应以实现预设的目标。比如说自动驾驶的汽车观察到前方五米有一个小男孩以5m/s的速度跑过来，那么为了防止撞到小男孩可以用来做出下一步行动的5米、5m/s和一个男孩向我（也就是智能汽车）跑来这三个信息都可以称之为状态。
动作（action）：智能体根据自己预设的程序根据当前的状态所作出的反应，并且作用到环境，使环境发生改变，同时也会使自己发生改变。
收益（reward）：当智能体做出一些动作后，环境和自身的状态都可能会发生改变，根据改变后的状态，我么人类可以给智能体一定的反馈，这个反馈可以是正也可以是负，但统称之为收益。这也是智能体在自主学习的过程中想要最大化的一个参数，在实现收益最大化的同时实现自身的预设功能。
如上图所示是智能体和环境之间的一个交互过程。在时刻t，智能体观测到环境的一个状态S_t，并且做出一个动作A_t。在下一个时刻t+1，智能体收到一个收益R_t+1，并且观测到新的状态S_t+1。

学车辆的弟弟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【强化学习】第三章：有限马尔可夫决策过程

【强化学习】第三章：有限马尔可夫决策过程3.1 “智能体-环境”交互接口新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入3.1 “智能体-环境”交互接口下面先介绍一些基本的MDP概念。智能体（agent）：用来学习并
复制链接

扫一扫