FPGA机器学习之stanford机器学习第十六堂

              Reinforcement Learning

               强化学习。这里举例子是自主飞行的飞机。控制飞机,如果自主写程序的话,会很难,所以需要它自学习。

             最好用的地方,就是下棋。不过,怎么半监督学习算法。只有下棋的结果,赢和输,其实也算是监督了。

所以它就会自主的去赢更多的棋,来学习。

          一直采取行动。就是整个过程一直都在训练着。

                就是在行为过程中,不断的给奖励和批评。来优化更好的方案。

MDP如何工作的。

     选择动作A0,执行新的状态A1,取决于以前的概率。情况。

这个是获得的奖励总和最大。r大于0,小于1.

这样它就不会不断执行a0,a1,做正确的事情,使得奖励最大化。



加1的位置就是我们要走到的地方。就是棋局赢了的 意思。


后面就是的政策价值函数图。


用尽所有的策略。得出最大值。

值迭代算法。



其实那里的.8是0.8的缩略写法。

政策迭代


对于状态很多的,倾向使用迭代方法求解。

不知道状态转移概率。


微笑本人能力有限,但是我努力的学习,发展,现在写的可能有点乱套,总有一天我会成为高手的


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值