平均收益:智能体与环境之间的交互一直持续而没有对应的终止或开始状态
在平均收益的设定中,一个策略的质量被定义为在遵循该策略时的收益率的平均值,简称平均收益,即
是策略下稳定状态的分布
因为一直根据策略选择动作,则这个分布会保持不变:
回报是根据即时收益和平均收益的差来定义的,即差分回报
差分价值函数,将所有的即时收益替换为即使收益和真实平均收益之差
TD误差
是在t时刻对平均收益的估计。
需要对于每个时刻上的平均收益来定义性能
平均收益:智能体与环境之间的交互一直持续而没有对应的终止或开始状态
在平均收益的设定中,一个策略的质量被定义为在遵循该策略时的收益率的平均值,简称平均收益,即
是策略下稳定状态的分布
因为一直根据策略选择动作,则这个分布会保持不变:
回报是根据即时收益和平均收益的差来定义的,即差分回报
差分价值函数,将所有的即时收益替换为即使收益和真实平均收益之差
TD误差
是在t时刻对平均收益的估计。
需要对于每个时刻上的平均收益来定义性能