论文阅读——《Online Learning of Rested and Restless Bandits》
请对照原文进行阅读!
需要具备bandit基本知识以及马尔可夫链。(可参照reinforcement learning书的第一二三章)
摘要
文章研究了一个rested和restless的多player bandit问题。rested和restless的区别在于arm 的state变化,所研究系统主要由一个单一player和K个有限状态马尔可夫链(arms)组成。每个时间步,玩家选择M个arm,M小于等于K。以最大化reward或者最小化regret。restless multi-ar...
原创
2021-09-29 15:31:51 ·
585 阅读 ·
0 评论