深度强化学习
文章平均质量分 75
Kerui95
这个作者很懒,什么都没留下…
展开
-
马尔可夫决策过程(MDP)
1.什么是马尔可夫性?马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。2.什么是马尔可夫决策过程?马尔可夫决策过程(MDPs)以安德烈马尔可夫的名字命名 ,针对一些决策的输出结果部分随机而又部分可控的情况,给决策者提供一个决策制定的数学建模框架。MDPs对通过动态规划和强化学习来求解的广泛的优化问题是非常有用的。MDPs至少早在20世纪50年代就被大家熟知原创 2017-11-07 17:17:28 · 1254 阅读 · 0 评论 -
Trust region policy optimization笔记
Trust region policy optimization笔记一、 论文解决的问题相比于值函数方法,策略搜索算法无疑具有很多的优点。(1) 直接策略搜索方法是对策略π进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。(2)值函数方法无法求解动作空间很大或者动作为连续集的问题。)策略搜索算法目前发展最迅速的是策略梯度方法。然而策略梯度方法存在着学习速率原创 2017-11-28 19:57:46 · 1745 阅读 · 0 评论 -
什么是交叉熵
熵的本质是香农信息量()的期望。现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:H(p)=。如果使用错误分布q来表示来自真实分布p的平均编码长度,则应该是:H(p,q)=。因为用q来编码的样本来自分布p,所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。比如含有4个字母(A,B,...转载 2018-03-16 22:17:54 · 1289 阅读 · 0 评论