Sutton reinforcement learning _ Chapter 2 Multi-armed Bandits
打算看英文版Sutton的《强化学习》,从第二章开始记录下对每一章的理解,对每一块的内容大致介绍,留个纪念。
这一章围绕着多臂赌博机问题,介绍了基本的强化学习算法(value based),并探讨了利用(exploit)和探索(explore)问题。
2.1A k-armed Bandit Problem
有k个赌博机,每次的操作就是拉下其中一个控制杆,随后你会得到一个奖励。通过多次的选择,你要使得总收益最大化。其中每个赌博机的收益服从一个分布。k个动作的每一个被选择时都有一个期望奖励,称为这个.
原创
2020-07-19 16:46:39 ·
342 阅读 ·
0 评论