自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq1483661204的博客

强化学习

关注

关注数：文章数：1 文章阅读量：7965 文章收藏量：29

作者: ML_BOY

哪怕跑道只剩我一个，我也要跑到终点

展开

K摇臂赌博机 --ε-贪心算法(原理与Python代码实现模拟)

K摇臂赌博机 K摇臂赌博机对应单步强化学习模型，K摇臂赌博机有K个摇臂，赌徒投币后按下其中一个摇臂，摇臂以一定的概率吐出硬币，赌徒事先并不知道每个摇臂吐出概率的的情况，需要使得赌徒获得硬币最大？解决这个问题，其中有两种简单的解法：仅利用：选择目前为止平均奖赏最大的摇臂，缺点没有很好地估计摇臂的期望奖赏，可能经常选择不到最优的奖赏，仅探索：将选择的机会平

原创 2018-01-28 22:59:30 · 7965 阅读 · 6 评论