K摇臂赌博机 --ε-贪心算法(原理与Python代码实现模拟)
K摇臂赌博机
K摇臂赌博机对应单步强化学习模型,K摇臂赌博机有K个摇臂,赌徒投币后按下其中一个摇臂,摇臂以一定的概率
吐出硬币,赌徒事先并不知道每个摇臂吐出概率的的情况,需要使得赌徒获得硬币最大?
解决这个问题,其中有两种简单的解法:
仅利用:
选择目前为止平均奖赏最大的摇臂,缺点没有很好地估计摇臂的期望奖赏,可能经常选择不到最优的
奖赏,
仅探索:
将选择的机会平
原创
2018-01-28 22:59:30 ·
7965 阅读 ·
6 评论