自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 CDN笔记一 Locality Sensitive Hashing算法

本篇笔记基于文章Similarity search in high dimensions via hashing。历史locality-sensetive hashing 局部敏感哈希,简称为LSH,最早由Indyk于1998年提出[1]^{[1]}[1],1999年被用于解决高维度海量数据的近似查找[2]^{[2]}[2]。近邻查找先来看看什么是k-NN和ϵ\epsilonϵ-NN问题。...

2018-10-24 04:12:20 476

原创 强化学习笔记四 DP, MC, TD小结

前两篇介绍了三种RL方法,DP,MC和TD,本篇进行一个总结和对比。Backup先来看看backup的区别:DPMCTDBootstrapping & samplingBootstrapping指更新中包含估计值,sampling指用期望来更新DPBootstrap, does not sampleMCno Bootstrap, sampleTDBootst...

2018-10-12 00:18:53 3387

原创 强化学习笔记三 Monte Carlo Method & Temporal-Difference Method

之前笔记二中介绍了求解MDP的model based方法,本篇笔记介绍两种model-free方法,Monte Carlo(MC) 和 Temporal-Difference(TD)。model-free methods先说说model free的好处,前面我们用DP求解需要知道MDP的所有信息,即状态转移矩阵和反馈,但大多数现实情况中,agent在还未与环境交互之前是不知道环境的信息。在这种...

2018-10-12 00:09:26 562

原创 强化学习笔记一 N-armed bandit Problem

本篇笔记是RL学习的入门,介绍N-Bandit问题和解决算法。N-Bandit问题N-Bandit问题指在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt​(a)=(R1​+R2​+...+RKa​​)/Ka​,即...

2018-10-04 06:27:08 2329

原创 强化学习笔记二 MDP & DP

本篇笔记将会介绍强化学习的基本概念,马尔可夫决策过程MDP,Bellman方程和动态规划求解MDP问题。基本概念history and statehistory 是一系列观察,行动和奖励的集合。state是history的函数,包含当前状态的信息,并用于决定下一时刻的行动。policyπ(a∣s){\pi(a|s)}π(a∣s)代表在状态s下采取行动的策略,换言之就是采取行动a的概率。p...

2018-10-04 05:34:27 1577

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除