基本概念
eg: 找到好的路径到达一个地方 (如何定义路径是好的?forbidden cells ,detours,or boundary)
Grid world(机器人在网格世界走)
1、State 指位置
s1,s2 …s9
State space
s1到s9的集合
2、Action
a1,a2 …s5 表示在每一个状态上可以的采取的行动
Action space of a state
一个state的全部活动
State transition probability
条件概率
3、Policy
会告诉智能体 如果在一个状态 应该take哪个Action(用箭头表示)策略
基于这个策略我们会遵循path
直观用图
实际用条件概率
π在强化学习中表示策略
针对s1: π(a1|s1)=0 制定了任何一个状态下 它的Action的概率、
π(a2|s1)=1(图上规定s1是向a2走)
π(a3|s1)=0
π(a4|s1)=0
π(a5|s1)=0 概率和加起来为1
编程中会用数组或矩阵来表示策略
如何去执行策略/编程中如何实现?
0-1进行采样
4、Reward
是一个标量 智能体采取一个动作后会得到一个数
正数代表鼓励 负数不希望发生
tabular representation 表格表示法
每行对应状态 每列对应action
mathematical description 数学描述
处于s1 选择走a1 reward=-1
在s1 选择a1 得到-1的概率是1 并且 得到不是1的概率是0
trajectory轨迹
State-Action-reward chain
return 是针对于 trajectory的概念
沿着trajectory把所有的reward加起来
return作用 :直观用图对比哪个更好 数学会看return评估哪个更好
折扣回报(Discounted Return)
通过引入折扣回报得到了什么?
Roles: 1) the sum becomes finite;总和是有限的
2) balance the far and near future rewards:平衡遥远和近期的回报
Episode
terminal states
在机器学习领域中,"episode"通常指的是一组从开始到结束的有限的交互式体验或任务,通常用于强化学习(reinforcement learning)中,一般翻译为"回合"或"轮次"比较恰当。在强化学习中,智能体(agent)与环境(environment)互动来学习执行任务,一个 episode 就是这种互动过程中智能体与环境的一次完整交互,从智能体接收状态信息开始,通过智能体采取行动(action)来与环境交互,直到任务结束,同时还包括了智能体从这个过程中获取的奖励(reward)信息。在每个 episode 的结束时,智能体会重新开始,再次开始另一个 episode。因此,一个 episode 包含了从开始到结束的智能体与环境之间的完整的交互过程。