UCB Spikes 理解和 UCB 缺点

最新推荐文章于 2024-03-15 15:44:09 发布

jasonwang_

最新推荐文章于 2024-03-15 15:44:09 发布

阅读量1.9k

点赞数 1

分类专栏：强化学习文章标签： UCB算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jasonwang_/article/details/86632032

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

UCB – The Upper Confidence BoundAlgorithm，上置信算法。

下图红圈部分就是 UCB Spikes。

下面就来解释如何形成UCB Spikes（尖峰）。由于UCB算法的优化目标是提高每个动作的置信度，这个置信度可以理解为每个动作的平均收益和该动作的探索程度的加权和，而探索程度是一个关于该动作被选中次数的函数，选中越多，则探索程度越小。在最开始时，所有的臂的置信度都很低（因为所有动作的初始收益都是0，此时探索程度占据主动），因此每个臂都会被选中几次，很快地就找到了最优的动作（在平均收益图像中形成一个很显著的波峰），但是UCB算法的优化目标是提高每一个臂的置信度，它会去选择那些当前收益不高的动作，因而又从波峰处掉了下去。以上便解释了USB Spikes在前几个Steps形成的原因。

下面总结一些UCB算法的缺点。
1. UCB算法尽管能很快发现最优的动作，但为了追求每个动作的置信度，收敛于最优的动作的速度慢于一些方法，例如softmax，同时总平均收入也低于softmax，但比e-greedy要高。
2. UCB算法比e-greedy算法更难拓展到更普遍的强化学习环境中，很难解决非静止的问题（动作的收益不是来自一个静止的概率分布），很难解决有海量状态空间的问题。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
UCB Spikes 理解和 UCB 缺点

UCB – The Upper Confidence BoundAlgorithm，上置信算法。下图红圈部分就是 UCB Spikes。下面就来解释如何形成UCB Spikes（尖峰）。由于UCB算法的优化目标是提高每个动作的置信度，这个置信度可以理解为每个动作的平均收益和该动作的探索程度的加权和，而探索程度是一个关于该动作被选中次数的函数，选中越多，则探索程度越小。在最开始时，所有的...
复制链接

扫一扫

专栏目录

jasonwang_ CSDN认证博客专家 CSDN认证企业博客

码龄10年

19: 原创

25万+: 周排名

130万+: 总排名

17万+: 访问

: 等级

1402: 积分

19: 粉丝

54: 获赞

32: 评论

173: 收藏

私信

关注

热门文章

分类专栏

机器学习 5篇
特征处理 2篇
java基础 4篇
pandas 1篇
Ubuntu 1篇
其他 3篇
Spark 2篇
lightgbm 1篇
图计算 1篇
爬虫
git 1篇
深度学习
强化学习 2篇

最新评论

为什么E-GREEDY算法中e越小，性能会更好
Aquiers: 请问这篇文章题目是什么？找了很久没能找到，感谢
Pycharm无法启动本地jupyter notebook(403 post /api/kernels 《127.0.0.1》: '_xsrf' arument missing from post )
花や: 请问为什么我的运行配置里面没有jupyter notebook的选项（能正常打开ipynb文件并且设置里面有jupyter服务器）
python selenium 右键另存为爬坑指南（包含windows和linux）
轻烟飘荡: 用这个比用其他爬虫下载文件快多了
UCB Spikes 理解和 UCB 缺点
cap_timo: 我觉得您的博客还是没有解释清楚为什么在第11步的时候有一个波峰，您在博客里说到“因此每个臂都会被选中几次，很快地就找到了最优的动作（在平均收益图像中形成一个很显著的波峰）”，事实上，在前10步因为N(a)=0，会把10个摇臂都遍历一遍，但是为什么在第11步会产生波峰呢？如果可以的话，希望您再解释一下
python selenium 右键另存为爬坑指南（包含windows和linux）
DorisLuck: 您好，请问现在解决了吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。