competitive ratio and online learning

在线学习思路解决bandits问题,包括如何构造损失函数,通过探索,以更好估计损失函数的结构(分布),和通过利用,最小化遗憾倾向于选择能最小化损失函数的决策,探索和利用之间的折中。

在线算法竞争比:
https://www.cnblogs.com/zhangzefei/p/9738642.html

基于梯度的学习,最小化训练集上的经验分布和模型分布之间的差异:
https://blog.csdn.net/cjm083121/article/details/89322111

Online Learning:
https://blog.csdn.net/hzwaxx/article/details/83867630

bandits问题基于在线学习思想解决,由于观测的不充分,赌博机在线学习存在探索和利用两者之间的困境。一方面,为了准确地估计损失函数的结构,学习器需要尝试更多的新决策;而另一方面,为了最小化遗憾,学习器又倾向于选择能最小化损失函数的决策。
https://blog.csdn.net/pouqiyu5090/article/details/85007053
https://blog.csdn.net/pouqiyu5090/article/details/84898609

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值