- 博客(5)
- 收藏
- 关注
原创 CDN笔记一 Locality Sensitive Hashing算法
本篇笔记基于文章Similarity search in high dimensions via hashing。历史locality-sensetive hashing 局部敏感哈希,简称为LSH,最早由Indyk于1998年提出[1]^{[1]}[1],1999年被用于解决高维度海量数据的近似查找[2]^{[2]}[2]。近邻查找先来看看什么是k-NN和ϵ\epsilonϵ-NN问题。...
2018-10-24 04:12:20 476
原创 强化学习笔记四 DP, MC, TD小结
前两篇介绍了三种RL方法,DP,MC和TD,本篇进行一个总结和对比。Backup先来看看backup的区别:DPMCTDBootstrapping & samplingBootstrapping指更新中包含估计值,sampling指用期望来更新DPBootstrap, does not sampleMCno Bootstrap, sampleTDBootst...
2018-10-12 00:18:53 3387
原创 强化学习笔记三 Monte Carlo Method & Temporal-Difference Method
之前笔记二中介绍了求解MDP的model based方法,本篇笔记介绍两种model-free方法,Monte Carlo(MC) 和 Temporal-Difference(TD)。model-free methods先说说model free的好处,前面我们用DP求解需要知道MDP的所有信息,即状态转移矩阵和反馈,但大多数现实情况中,agent在还未与环境交互之前是不知道环境的信息。在这种...
2018-10-12 00:09:26 562
原创 强化学习笔记一 N-armed bandit Problem
本篇笔记是RL学习的入门,介绍N-Bandit问题和解决算法。N-Bandit问题N-Bandit问题指在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt(a)=(R1+R2+...+RKa)/Ka,即...
2018-10-04 06:27:08 2329
原创 强化学习笔记二 MDP & DP
本篇笔记将会介绍强化学习的基本概念,马尔可夫决策过程MDP,Bellman方程和动态规划求解MDP问题。基本概念history and statehistory 是一系列观察,行动和奖励的集合。state是history的函数,包含当前状态的信息,并用于决定下一时刻的行动。policyπ(a∣s){\pi(a|s)}π(a∣s)代表在状态s下采取行动的策略,换言之就是采取行动a的概率。p...
2018-10-04 05:34:27 1577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人