competitive ratio and online learning

最新推荐文章于 2022-07-02 11:18:46 发布

周周34

最新推荐文章于 2022-07-02 11:18:46 发布

阅读量967

点赞数 2

文章标签：机器学习深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43413198/article/details/104437493

版权

在线学习思路解决bandits问题，包括如何构造损失函数，通过探索，以更好估计损失函数的结构（分布），和通过利用，最小化遗憾倾向于选择能最小化损失函数的决策，探索和利用之间的折中。

在线算法竞争比：
https://www.cnblogs.com/zhangzefei/p/9738642.html

基于梯度的学习，最小化训练集上的经验分布和模型分布之间的差异：
https://blog.csdn.net/cjm083121/article/details/89322111

Online Learning：
https://blog.csdn.net/hzwaxx/article/details/83867630

bandits问题基于在线学习思想解决，由于观测的不充分，赌博机在线学习存在探索和利用两者之间的困境。一方面，为了准确地估计损失函数的结构，学习器需要尝试更多的新决策；而另一方面，为了最小化遗憾，学习器又倾向于选择能最小化损失函数的决策。
https://blog.csdn.net/pouqiyu5090/article/details/85007053
https://blog.csdn.net/pouqiyu5090/article/details/84898609

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
competitive ratio and online learning

https://www.cnblogs.com/zhangzefei/p/9738642.htmlhttps://blog.csdn.net/hzwaxx/article/details/83867630
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。