学习笔记
文章平均质量分 91
偶尔范特西
大数据博士在读
展开
-
【学习笔记】传说中的马尔可夫决策过程(MDP)和贝尔曼方程(Bellman Equation)
最近读了几篇paper,都着重涉及到了强化学习,都点到了马尔科夫决策过程(Markov decision process)和贝尔曼方程或者叫贝尔曼等式(Bellman equation),捧着似懂非懂的脑袋,决定这里把它们一网打尽。1 马尔可夫决策过程(MDP)马尔可夫决策过程主要是用来描述强化学习任务的,强化学习与我们所熟知的监督学习不一样,监督学习中每个样本都以一个label,从而通过...原创 2019-12-05 15:38:28 · 2698 阅读 · 0 评论 -
【学习笔记】强化学习中的Q-Learning
写在前面本文内容参考莫凡大神的强化学习教程:莫凡大神RL教程Q-Learning的思想当今社会每个人有自己的做事方式,有些人做事是不顾后果先做了再说,而且从来不吸取教训,比如HK废青;而有些人就不一样了,做事前会拟定策略(policy),并且根据采取不同策略产生的后果(reward or penalty) 来更新自己的计划表,当然这里的后果在每一次更新自己的计划表前并没有实践,而是靠想...原创 2019-11-21 09:10:57 · 249 阅读 · 0 评论