强化学习/进化算法/贝叶斯优化本质

最新推荐文章于 2023-12-06 11:27:54 发布

hi我是大嘴巴

最新推荐文章于 2023-12-06 11:27:54 发布

阅读量3.8k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38740463/article/details/90699998

版权

强化学习(RL)：序列决策

本质: 根据实际情况不断改变方法以达到最优解吧

出现原因：

1）增量式的参数更新 (Incremental Parameter Adjustment) ，从输入到输出，有梯度下降完成（增量小，学习过程缓慢（每个增量都需要非常小，才不至于让新学到的信息，把之前学到的经验覆盖了 (这叫做“灾难性干扰”) ））

DRL解决方案：加入RNN时许思想，从过去的事件里学到的信息，都可以立刻派上用场

2）弱归纳偏置 (Weak Inductive Bias) ，任何学习过程，都要面临“偏见-方差权衡”。

给一个定量（偏见），AI快速得到结恶果

DRL解决方案：借鉴过去的经验，给一个狭窄的范围

进化算法：

fitness函数的值，往往就是我们想要的最终结果了，迭代其实只是为了去在函数空间中采点，去搜寻逼近最优的那个值的点

区别：强化学习迭代虽然同样也是为了去在函数空间中采样，但却是为了逼近一个累计的最优值。因此关注时许的累积

贝叶斯优化：

利用先验知识逼近未知目标函数的后验分布，关注各种超参数

hi我是大嘴巴

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强化学习/进化算法/贝叶斯优化本质

强化学习(RL)：序列决策本质: 根据实际情况不断改变方法以达到最优解吧出现原因：1）增量式的参数更新(Incremental Parameter Adjustment) ，从输入到输出，有梯度下降完成（增量小，学习过程缓慢（每个增量都需要非常小，才不至于让新学到的信息，把之前学到的经验覆盖了 (这叫做“灾难性干扰”)））DRL解决方案：加入RNN时许思想，从过...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。