- 博客(2)
- 收藏
- 关注
原创 Policy Evaluation之Doubly Robust论文讲解
● 每周一言不用担心自己有多努力,因为每个人身边总会有一个人比你更努力。导语前一篇文章已经铺垫好了增强学习评估的概念,几乎所有对强化学习策略评估的方法都是基于重要性采样(Importance Sampling,IS)展开。其中最经典的方法,莫过于ICML2011上出现的Doubly Robust estimation了。那么,Doubly Robust estimation具体是如何评估RL...
2018-11-25 12:37:22 4840
原创 理解增强学习的评估
● 每周一言潜能,多半都是逼出来的。导语在前面机器学习方法篇系列文中,小斗给大家简单介绍了什么是增强学习,以及增强学习最基础的几个算法(MDP、DP、MC、TD)。基本上,策略函数的优劣直接决定了整个算法模型的好坏。那么,如何评估增强学习的策略?和评估 监督/无监督学习 有何不同?RL评估我们知道,在监督学习中,数据样本有明确的label标签值,我们可以通过计算预测值与标签值之间的AUC...
2018-11-11 18:37:38 2243
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人