Reinforcement Learning
强化学习。这里举例子是自主飞行的飞机。控制飞机,如果自主写程序的话,会很难,所以需要它自学习。
最好用的地方,就是下棋。不过,怎么半监督学习算法。只有下棋的结果,赢和输,其实也算是监督了。
所以它就会自主的去赢更多的棋,来学习。
一直采取行动。就是整个过程一直都在训练着。
就是在行为过程中,不断的给奖励和批评。来优化更好的方案。
MDP如何工作的。
选择动作A0,执行新的状态A1,取决于以前的概率。情况。
这个是获得的奖励总和最大。r大于0,小于1.
这样它就不会不断执行a0,a1,做正确的事情,使得奖励最大化。
加1的位置就是我们要走到的地方。就是棋局赢了的 意思。
后面就是的政策价值函数图。
用尽所有的策略。得出最大值。
值迭代算法。
其实那里的.8是0.8的缩略写法。
政策迭代
对于状态很多的,倾向使用迭代方法求解。
不知道状态转移概率。
本人能力有限,但是我努力的学习,发展,现在写的可能有点乱套,总有一天我会成为高手的。