算法学习
foxeatapple
脚踏实地。。。
展开
-
马尔可夫过程(Markov Process)
马尔可夫过程出自 MBA智库百科(http://wiki.mbalib.com/)<br />马尔可夫过程(Markov Process)[编辑]什么是马尔可夫过程 <br />1、马尔可夫性(无后效性)<br /> 过程或(系统)在时刻t0所处的状态为已知的条件下,过程在时刻t > t0所处状态的条件分布,与过程在时刻t0之前年处的状态无关的特性称为马尔可夫性或无后效性。 <br /> 即:过程“将来”的情况与“过去”的情况是无关的。 <br />2、马尔可夫过程的定义<br /> 具有马尔可夫性的转载 2010-11-14 19:30:00 · 8959 阅读 · 0 评论 -
马尔可夫决策过程(一)
马尔可夫决策过程(一)最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!马尔可夫决策过程(MDPs)以安德烈马尔可夫的名字命名,针对一些决策的输出结果部分随机而又部分可控的情况,给决策者提供一个决策制定的数学建模框架。MDPs对通过动态规划和强化学习来求解的广泛的优化问题是非常有用的。MDPs至少早在20世纪50年代就被大家翻译 2010-11-14 19:45:00 · 36643 阅读 · 2 评论 -
马尔可夫决策过程(二)
<br /> 马尔可夫决策过程(二)<br />最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!<br /><br /><br />问题<br />MDPs的核心问题是为决策者找到一个这样的策略:找到到函数π,此函数指定决策者处于状态s的时候将会选择的动作π(s)。请注意,一旦一个马尔可夫决策过程以这种方式结合策略,这样可翻译 2010-11-14 19:53:00 · 6773 阅读 · 0 评论 -
马尔可夫决策过程(三)
马尔可夫决策过程(三)最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!解决方法假设我们知道状态转移函数P和奖励函数R,而且我们希望计算最大化期望折扣奖励的策略。标准的算法族(the standard family of algorithms)来计算此类最佳策略需要两个数组,它们分别被包含实际值的值 V 和包含动作的策略 π翻译 2010-11-14 19:56:00 · 5596 阅读 · 1 评论 -
马尔可夫决策过程(四)
马尔可夫决策过程(四)<br /> <br />最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!<br /> <br /> <br />值得注意的变种<br />值迭代<br />在值迭代(贝尔曼1957年)中,也被称为逆向归纳法,π数组是不被使用的,而是当需要时就计算π(s)的值。<br />代入 π(s) 的计算结果到翻译 2010-11-14 19:59:00 · 4983 阅读 · 0 评论 -
马尔可夫决策过程(五)
马尔可夫决策过程(五)最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!扩展部分可观测主要文章:部分可观察马尔可夫决策过程假定当动作被采取时状态 s 是已知的;否则π(s)不能被计算。当这个假设是不正确的,此问题被称为部分可观测马尔可夫决策过程或POMDP的。强化学习如果概率或奖励不明,问题是一种强化学习(Sutton和Ba翻译 2010-11-14 20:00:00 · 8554 阅读 · 1 评论