Upper Confidence Bound 该算法于2002年提出,因其应用场景类似于老虎机得名\alpha表示一次操作,Q(\alpha)表示执行该行动的平均回报,N(\alpha)表示执行\alpha的次数,N表示操作总次数,c是一个常数,通常取\sqrt{\frac{ln(N)}{2}}或者\sqrt{2}