理解增强学习的评估

● 每周一言

潜能,通常是逼出来的。

导语

在前面机器学习方法篇系列中,小斗给大家简单介绍了什么是增强学习,以及增强学习最基础的几个算法概念(MDP、DP、MC、TD)。基本上,策略函数的优劣决定了整个模型的好坏。那么,如何评估增强学习的策略?和评估 监督/无监督学习 有何不同?

RL评估

我们知道,在监督学习中,样本数据有明确的label标签值,我们可以通过计算预测值和标签值之间的AUC、F1 score等指标来评估模型的优劣;在无监督学习中,我们则通常使用距离度量衍生出来的指标来衡量模型的好坏。

比如,AUC指标较高的模型,模型能力通常较好,关于AUC的讲解可参见文章 如何直观理解AUC评价指标?

而在增强学习中,训练样本既没有label的概念,也不存在距离的度量,只有 reward(回报或奖励)。那么增强学习到底如何评估?

最直观也是最能想到的评估方法,就是 直接计算法(Direct Method,DM)

举例说明:行为空间{a1,a2},对应的奖励分别是{10,6},当前策略函数 π 给出的行动概率分别是{50%,50%}。我们用DM直接评估该策略的收益,就是 10 * 50% + 6 * 50% = 8,策略函数 π 在当前样本下的收益评估即为8。

问题来了,奖励值{10,6}的均值期望和真实的奖励期望往往并不相等。打个比方,姚明NBA职业生涯罚篮命中率是83.3%,假如我们随机抽看其两场比赛,发现其中一场罚篮10中6,另一场10中7,平均下来这两场罚篮命中率只有65%,和83.3%相去甚远。

究其原因,是受样本本身抽样的限制,如果统计所有比赛的期望,就是83.3%,即无偏估计。而增强学习在现实场景中,几乎不可能穷举所有样本,所以用DM来评估增强学习算法,太简单粗暴,不够准确。

那么,有没有好一点的办法来评估?自然是有的,那就是 重要性采样(Importance Sampling,IS)。增强学习所有流行的评估方法,几乎都是在IS方法的基础之上做的延伸和改进。

接下来的几篇文章,小斗将逐一给大家分享增强学习评估界的一些 state of the art 方法。当然,小斗也在慢慢的学习领悟,难免出现理解谬误之处,希望大家不吝指教,多多留言讨论。

以上便是增强学习评估方面的简单介绍,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值