本篇笔记是RL学习的入门,介绍N-armed Bandit问题和解决算法。
N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机,在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。
先定义估计值 Q t ( a ) = ( R 1 + R 2 + . . . + R K a ) / K a {Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a} Qt(a)=(R1+R2
本篇笔记是RL学习的入门,介绍N-armed Bandit问题和解决算法。
N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机,在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。
先定义估计值 Q t ( a ) = ( R 1 + R 2 + . . . + R K a ) / K a {Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a} Qt(a)=(R1+R2