强化学习原理

基本概念

eg: 找到好的路径到达一个地方 (如何定义路径是好的?forbidden cells ,detours,or boundary)
Grid world(机器人在网格世界走)

1、State 指位置

s1,s2 …s9

State space

s1到s9的集合

2、Action

a1,a2 …s5 表示在每一个状态上可以的采取的行动

Action space of a state

一个state的全部活动

State transition probability

条件概率

3、Policy

会告诉智能体 如果在一个状态 应该take哪个Action(用箭头表示)策略
基于这个策略我们会遵循path
直观用图
实际用条件概率
π在强化学习中表示策略
针对s1: π(a1|s1)=0 制定了任何一个状态下 它的Action的概率、
π(a2|s1)=1(图上规定s1是向a2走)
π(a3|s1)=0
π(a4|s1)=0
π(a5|s1)=0 概率和加起来为1
编程中会用数组或矩阵来表示策略
在这里插入图片描述

如何去执行策略/编程中如何实现?

0-1进行采样

4、Reward

是一个标量 智能体采取一个动作后会得到一个数
正数代表鼓励 负数不希望发生
在这里插入图片描述

tabular representation 表格表示法

在这里插入图片描述
每行对应状态 每列对应action

mathematical description 数学描述

处于s1 选择走a1 reward=-1
在这里插入图片描述
在s1 选择a1 得到-1的概率是1 并且 得到不是1的概率是0

trajectory轨迹

State-Action-reward chain
在这里插入图片描述

return 是针对于 trajectory的概念

沿着trajectory把所有的reward加起来
在这里插入图片描述
return作用 :直观用图对比哪个更好 数学会看return评估哪个更好

折扣回报(Discounted Return)

通过引入折扣回报得到了什么?
Roles: 1) the sum becomes finite;总和是有限的
2) balance the far and near future rewards:平衡遥远和近期的回报
在这里插入图片描述

Episode

terminal states
在机器学习领域中,"episode"通常指的是一组从开始到结束的有限的交互式体验或任务,通常用于强化学习(reinforcement learning)中,一般翻译为"回合"或"轮次"比较恰当。在强化学习中,智能体(agent)与环境(environment)互动来学习执行任务,一个 episode 就是这种互动过程中智能体与环境的一次完整交互,从智能体接收状态信息开始,通过智能体采取行动(action)来与环境交互,直到任务结束,同时还包括了智能体从这个过程中获取的奖励(reward)信息。在每个 episode 的结束时,智能体会重新开始,再次开始另一个 episode。因此,一个 episode 包含了从开始到结束的智能体与环境之间的完整的交互过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值