概念理解
1 “episode”
(1)An episode is one complete play of the agent interacting with the environment in the general RL setting. Episodic tasks in RL means that the game of trying to solve the task ends at a terminal stage or after some amount of time.
Two examples: 1. Robotic arm reaches its goal position (termination = good) 2. Your game agent dies of hitting the enemy (termination = bad)
翻译:一集是代理在一般 RL 设置中与环境交互的完整播放。 强化学习中的情节任务意味着试图解决任务的游戏在最终阶段或一段时间后结束。
两个例子:1.机械臂到达目标位置(终止 = 好)2.你的游戏代理死于击球 敌人(终止=坏)
(2)默认的“episode”是增强学习agent在环境里面执行某个策略从开始到结束这一过程。在增强学习文章里面,还没看到过有别的含义的“episode”。
p.s 有的增强学习算法如TRPO是用整个episode的数据一起拿来训练的,有的算法如DDPG则是agent的每步step的数据都可以训练。
(3)agent根据某个策略执行一系列action到结束就是一个episode。
理解1:“episode”指的是,智能体与环境交互的一段时间,里面包含了智能体根据某一策略做出的所有步骤,每一步环境的状态,每一步反馈的奖惩等信息。这样与第二个观点一致,有利用整个episode进行训练更新,有的利用每一步更新。
强化学习迁移到其他场景;文件传输,传输完成叫一个episode;
链接:https://www.zhihu.com/question/294277867/answer/489930897