Contextual Bandits介于RL与MAB之间。
- RL: 动作改变状态,奖励由状态,动作决定
- CB: 动作不改变状态,奖励由状态,动作决定
- MAB:动作不改变状态,奖励只由动作决定
linUCB是Contextual Bandits的一种方法。其基本思想是用函数近似期望收益,对于每一个动作,学习一个这样的估计函数,当面临新的状态s的时候,先估计每个动作的期望收益 ,再根据UCB算法挑一个动作做(综合考虑探索和贪心)。
Contextual Bandits介于RL与MAB之间。
linUCB是Contextual Bandits的一种方法。其基本思想是用函数近似期望收益,对于每一个动作,学习一个这样的估计函数,当面临新的状态s的时候,先估计每个动作的期望收益 ,再根据UCB算法挑一个动作做(综合考虑探索和贪心)。