自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

对半独白

纯粹的个人分享

  • 博客(2)
  • 收藏
  • 关注

原创 Policy Evaluation之Doubly Robust论文讲解

● 每周一言不用担心自己有多努力,因为每个人身边总会有一个人比你更努力。导语前一篇文章已经铺垫好了增强学习评估的概念,几乎所有对强化学习策略评估的方法都是基于重要性采样(Importance Sampling,IS)展开。其中最经典的方法,莫过于ICML2011上出现的Doubly Robust estimation了。那么,Doubly Robust estimation具体是如何评估RL...

2018-11-25 12:37:22 4840

原创 理解增强学习的评估

● 每周一言潜能,多半都是逼出来的。导语在前面机器学习方法篇系列文中,小斗给大家简单介绍了什么是增强学习,以及增强学习最基础的几个算法(MDP、DP、MC、TD)。基本上,策略函数的优劣直接决定了整个算法模型的好坏。那么,如何评估增强学习的策略?和评估 监督/无监督学习 有何不同?RL评估我们知道,在监督学习中,数据样本有明确的label标签值,我们可以通过计算预测值与标签值之间的AUC...

2018-11-11 18:37:38 2243

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除