强化学习
文章平均质量分 78
thormas1996
关注机器学习,深度学习,联邦学习,推荐系统等相关内容
展开
-
强化学习笔记二 MDP & DP
本篇笔记将会介绍强化学习的基本概念,马尔可夫决策过程MDP,Bellman方程和动态规划求解MDP问题。基本概念history and statehistory 是一系列观察,行动和奖励的集合。state是history的函数,包含当前状态的信息,并用于决定下一时刻的行动。policyπ(a∣s){\pi(a|s)}π(a∣s)代表在状态s下采取行动的策略,换言之就是采取行动a的概率。p...原创 2018-10-04 05:34:27 · 1589 阅读 · 0 评论 -
强化学习笔记一 N-armed bandit Problem
本篇笔记是RL学习的入门,介绍N-Bandit问题和解决算法。N-Bandit问题N-Bandit问题指在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt(a)=(R1+R2+...+RKa)/Ka,即...原创 2018-10-04 06:27:08 · 2341 阅读 · 0 评论 -
强化学习笔记三 Monte Carlo Method & Temporal-Difference Method
之前笔记二中介绍了求解MDP的model based方法,本篇笔记介绍两种model-free方法,Monte Carlo(MC) 和 Temporal-Difference(TD)。model-free methods先说说model free的好处,前面我们用DP求解需要知道MDP的所有信息,即状态转移矩阵和反馈,但大多数现实情况中,agent在还未与环境交互之前是不知道环境的信息。在这种...原创 2018-10-12 00:09:26 · 565 阅读 · 0 评论 -
强化学习笔记四 DP, MC, TD小结
前两篇介绍了三种RL方法,DP,MC和TD,本篇进行一个总结和对比。Backup先来看看backup的区别:DPMCTDBootstrapping & samplingBootstrapping指更新中包含估计值,sampling指用期望来更新DPBootstrap, does not sampleMCno Bootstrap, sampleTDBootst...原创 2018-10-12 00:18:53 · 3397 阅读 · 0 评论