2018年10月_thormas1996

12月 10月 09月 08月 07月 06月

原创 CDN笔记一 Locality Sensitive Hashing算法

本篇笔记基于文章Similarity search in high dimensions via hashing。历史locality-sensetive hashing 局部敏感哈希，简称为LSH，最早由Indyk于1998年提出[1]^{[1]}[1]，1999年被用于解决高维度海量数据的近似查找[2]^{[2]}[2]。近邻查找先来看看什么是k-NN和ϵ\epsilonϵ-NN问题。...

2018-10-24 04:12:20 476

原创强化学习笔记四 DP, MC, TD小结

前两篇介绍了三种RL方法，DP，MC和TD，本篇进行一个总结和对比。Backup先来看看backup的区别：DPMCTDBootstrapping &amp;amp; samplingBootstrapping指更新中包含估计值，sampling指用期望来更新DPBootstrap, does not sampleMCno Bootstrap, sampleTDBootst...

2018-10-12 00:18:53 3387

原创强化学习笔记三 Monte Carlo Method & Temporal-Difference Method

之前笔记二中介绍了求解MDP的model based方法，本篇笔记介绍两种model-free方法，Monte Carlo(MC) 和 Temporal-Difference(TD)。model-free methods先说说model free的好处，前面我们用DP求解需要知道MDP的所有信息，即状态转移矩阵和反馈，但大多数现实情况中，agent在还未与环境交互之前是不知道环境的信息。在这种...

2018-10-12 00:09:26 562

原创强化学习笔记一 N-armed bandit Problem

本篇笔记是RL学习的入门，介绍N-Bandit问题和解决算法。N-Bandit问题N-Bandit问题指在每一步你都有n种选择，每一个选择会给你一定的回报，目标是尽量获得最高的收益。先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt(a)=(R1+R2+...+RKa)/Ka，即...

2018-10-04 06:27:08 2329

原创强化学习笔记二 MDP & DP

本篇笔记将会介绍强化学习的基本概念，马尔可夫决策过程MDP，Bellman方程和动态规划求解MDP问题。基本概念history and statehistory 是一系列观察，行动和奖励的集合。state是history的函数，包含当前状态的信息，并用于决定下一时刻的行动。policyπ(a∣s){\pi(a|s)}π(a∣s)代表在状态s下采取行动的策略，换言之就是采取行动a的概率。p...

2018-10-04 05:34:27 1577

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 CDN笔记一 Locality Sensitive Hashing算法

原创 强化学习笔记四 DP, MC, TD小结

原创 强化学习笔记三 Monte Carlo Method & Temporal-Difference Method

原创 强化学习笔记一 N-armed bandit Problem

原创 强化学习笔记二 MDP & DP

空空如也

空空如也

原创强化学习笔记四 DP, MC, TD小结

原创强化学习笔记三 Monte Carlo Method & Temporal-Difference Method

原创强化学习笔记一 N-armed bandit Problem

原创强化学习笔记二 MDP & DP