2018年11月_对半独白

12月 11月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Policy Evaluation之Doubly Robust论文讲解

● 每周一言不用担心自己有多努力，因为每个人身边总会有一个人比你更努力。导语前一篇文章已经铺垫好了增强学习评估的概念，几乎所有对强化学习策略评估的方法都是基于重要性采样（Importance Sampling，IS）展开。其中最经典的方法，莫过于ICML2011上出现的Doubly Robust estimation了。那么，Doubly Robust estimation具体是如何评估RL...

2018-11-25 12:37:22 4840

原创理解增强学习的评估

● 每周一言潜能，多半都是逼出来的。导语在前面机器学习方法篇系列文中，小斗给大家简单介绍了什么是增强学习，以及增强学习最基础的几个算法（MDP、DP、MC、TD）。基本上，策略函数的优劣直接决定了整个算法模型的好坏。那么，如何评估增强学习的策略？和评估监督/无监督学习有何不同？RL评估我们知道，在监督学习中，数据样本有明确的label标签值，我们可以通过计算预测值与标签值之间的AUC...

2018-11-11 18:37:38 2243

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Policy Evaluation之Doubly Robust论文讲解

原创 理解增强学习的评估

空空如也

空空如也

原创理解增强学习的评估