强化学习的理解-----笔记

概念理解

1 “episode”

(1)An episode is one complete play of the agent interacting with the environment in the general RL setting. Episodic tasks in RL means that the game of trying to solve the task ends at a terminal stage or after some amount of time.
Two examples: 1. Robotic arm reaches its goal position (termination = good) 2. Your game agent dies of hitting the enemy (termination = bad)

翻译:一集是代理在一般 RL 设置中与环境交互的完整播放。 强化学习中的情节任务意味着试图解决任务的游戏在最终阶段或一段时间后结束
两个例子:1.机械臂到达目标位置(终止 = 好)2.你的游戏代理死于击球 敌人(终止=坏)

(2)默认的“episode”是增强学习agent在环境里面执行某个策略开始到结束这一过程。在增强学习文章里面,还没看到过有别的含义的“episode”。
p.s 有的增强学习算法如TRPO是用整个episode的数据一起拿来训练的,有的算法如DDPG则是agent的每步step的数据都可以训练。

(3)agent根据某个策略执行一系列action结束就是一个episode。

理解1:“episode”指的是,智能体与环境交互的一段时间,里面包含了智能体根据某一策略做出的所有步骤,每一步环境的状态,每一步反馈的奖惩等信息。这样与第二个观点一致,有利用整个episode进行训练更新,有的利用每一步更新。
强化学习迁移到其他场景;文件传输,传输完成叫一个episode;

链接:https://www.zhihu.com/question/294277867/answer/489930897

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值