学习笔记--多臂老虎机(Multi-armed Bandits)--chapter2
区分增强学习(reinforcement learning)与其他类型的学习算法的一个最大的特征在于,增强学习评估(evaluates)采取的行动(actions),而非指示(instructs)通过给予正确的行动。通过学习最简单的多臂老虎机问题,来介绍数个基础学习算法,这些算法将在后续章节被运用于完整的增强学习问题。1. 多臂老虎机问题反复在k个不同选项、行动中进行选择,任意选项将返回一个符...
原创
2020-02-21 23:20:29 ·
2241 阅读 ·
0 评论