理解增强学习的评估

对半独白

于 2018-11-11 18:37:38 发布

阅读量2.4k

点赞数 3

分类专栏：增强学习文章标签：增强学习机器学习评估

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cherrylvlei/article/details/83959894

版权

增强学习专栏收录该内容

3 篇文章

订阅专栏

● 每周一言

潜能，通常是逼出来的。

导语

在前面机器学习方法篇系列中，小斗给大家简单介绍了什么是增强学习，以及增强学习最基础的几个算法概念（MDP、DP、MC、TD）。基本上，策略函数的优劣决定了整个模型的好坏。那么，如何评估增强学习的策略？和评估 监督/无监督学习 有何不同？

RL评估

我们知道，在监督学习中，样本数据有明确的label标签值，我们可以通过计算预测值和标签值之间的AUC、F1 score等指标来评估模型的优劣；在无监督学习中，我们则通常使用距离度量衍生出来的指标来衡量模型的好坏。

比如，AUC指标较高的模型，模型能力通常较好，关于AUC的讲解可参见文章如何直观理解AUC评价指标？

而在增强学习中，训练样本既没有label的概念，也不存在距离的度量，只有 reward（回报或奖励）。那么增强学习到底如何评估？

最直观也是最能想到的评估方法，就是 直接计算法（Direct Method，DM）。

举例说明：行为空间{a1，a2}，对应的奖励分别是{10，6}，当前策略函数 π 给出的行动概率分别是{50%，50%}。我们用DM直接评估该策略的收益，就是 10 * 50% + 6 * 50% = 8，策略函数 π 在当前样本下的收益评估即为8。

问题来了，奖励值{10，6}的均值期望和真实的奖励期望往往并不相等。打个比方，姚明NBA职业生涯罚篮命中率是83.3%，假如我们随机抽看其两场比赛，发现其中一场罚篮10中6，另一场10中7，平均下来这两场罚篮命中率只有65%，和83.3%相去甚远。

究其原因，是受样本本身抽样的限制，如果统计所有比赛的期望，就是83.3%，即无偏估计。而增强学习在现实场景中，几乎不可能穷举所有样本，所以用DM来评估增强学习算法，太简单粗暴，不够准确。

那么，有没有好一点的办法来评估？自然是有的，那就是 重要性采样（Importance Sampling，IS）。增强学习所有流行的评估方法，几乎都是在IS方法的基础之上做的延伸和改进。

接下来的几篇文章，小斗将逐一给大家分享增强学习评估界的一些 state of the art 方法。当然，小斗也在慢慢的学习领悟，难免出现理解谬误之处，希望大家不吝指教，多多留言讨论。

以上便是增强学习评估方面的简单介绍，敬请期待下节内容。

结语

感谢各位的耐心阅读，后续文章于每周日奉上，敬请期待。欢迎大家关注小斗公众号 对半独白！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。