接着考虑前文的10臂老虎机问题。假设我们可以与老虎机交互 T T T次,显然我们每次采取的行动(action)不必一成不变。记我们在 t t t时刻采取行动为 a t a_t at,获得的回报为 R ( a t ) R(a_t) R(at)。那么,我们的目标是
max a 1 , a 2 , . . . , a T ∑ t = 1 T E [ R ( a t ) ] . \max_{a_1,a_2,...,a_T} \sum_{t=1}^T E[R(a_t)]. a1,a2,...,aTmaxt=1∑TE[R(at)].
在实际应用中, a t a_t at会根据之前得到的 a 1 , a 2 , . . . , a t − 1 a_1,a_2,...,a_{t-1} a1,a2,...,