目录 一、介绍 1.1 强化学习 2.1 关于此文章 三、ε贪婪策略 四、蒙特卡洛控制 4.1 基本原理 4.2 举个例子 五、On-policy & off-policy 方法 六、重要性采样 6.1 赋予动机 6.2 想法 6.3 应用 七、增量实施 7.1 增量的理论 7.2 常α MC 八、结论 一、介绍 1.1 强化学习 R强化学习是机器学习中的一个领域,它引入了代理的概念,代理必须在复杂环境中学习最佳策略。代理从其操作中学习,这些操作会