强化学习原理

最新推荐文章于 2024-10-12 23:13:26 发布

一阵yz

最新推荐文章于 2024-10-12 23:13:26 发布

阅读量86

点赞数

分类专栏：强化学习文章标签：深度学习

本文链接：https://blog.csdn.net/cook0v0/article/details/131765273

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基本概念

eg：找到好的路径到达一个地方（如何定义路径是好的？forbidden cells ，detours，or boundary）
Grid world（机器人在网格世界走）

1、State 指位置

s1，s2 …s9

State space

s1到s9的集合

2、Action

a1，a2 …s5 表示在每一个状态上可以的采取的行动

Action space of a state

一个state的全部活动

State transition probability

条件概率

3、Policy

如何去执行策略/编程中如何实现？

0-1进行采样

4、Reward

是一个标量智能体采取一个动作后会得到一个数
正数代表鼓励负数不希望发生
在这里插入图片描述

tabular representation 表格表示法

在这里插入图片描述
每行对应状态每列对应action

mathematical description 数学描述

处于s1 选择走a1 reward=-1
在这里插入图片描述
在s1 选择a1 得到-1的概率是1 并且得到不是1的概率是0

trajectory轨迹

State-Action-reward chain
在这里插入图片描述

return 是针对于 trajectory的概念

沿着trajectory把所有的reward加起来
在这里插入图片描述
return作用：直观用图对比哪个更好数学会看return评估哪个更好

折扣回报(Discounted Return)

通过引入折扣回报得到了什么？
Roles: 1) the sum becomes finite;总和是有限的
2) balance the far and near future rewards:平衡遥远和近期的回报
在这里插入图片描述

Episode

terminal states
在机器学习领域中，"episode"通常指的是一组从开始到结束的有限的交互式体验或任务，通常用于强化学习（reinforcement learning）中，一般翻译为"回合"或"轮次"比较恰当。在强化学习中，智能体（agent）与环境（environment）互动来学习执行任务，一个 episode 就是这种互动过程中智能体与环境的一次完整交互，从智能体接收状态信息开始，通过智能体采取行动（action）来与环境交互，直到任务结束，同时还包括了智能体从这个过程中获取的奖励（reward）信息。在每个 episode 的结束时，智能体会重新开始，再次开始另一个 episode。因此，一个 episode 包含了从开始到结束的智能体与环境之间的完整的交互过程。