![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
jasonwang_
all or nothing
展开
-
UCB Spikes 理解 和 UCB 缺点
UCB – The Upper Confidence BoundAlgorithm,上置信算法。下图红圈部分就是 UCB Spikes。下面就来解释如何形成UCB Spikes(尖峰)。由于UCB算法的优化目标是提高每个动作的置信度,这个置信度可以理解为每个动作的平均收益和该动作的探索程度的加权和,而探索程度是一个关于该动作被选中次数的函数,选中越多,则探索程度越小。在最开始时,所有的...原创 2019-01-24 20:01:27 · 1924 阅读 · 1 评论 -
为什么E-GREEDY算法中e越小,性能会更好
为什么E-GREEDY算法中e越小,性能会更好How to understand the following sentences 第一句,讲的是e-贪心方法最终的性能更好的原因在于它持续地探索使得找到最优动作的概率提高了(纯粹的贪心只有1/3的概率找到最优动作)。第二句,当e=0.1时,该方法探索的概率更高,因而能更早地找到最优动作,但它选取该动作的概率不超过91%(因为有10%概率是...原创 2019-01-21 13:02:42 · 7727 阅读 · 1 评论