一、实验目的与要求
实验目的:
1.熟悉强化学习相关概念;
2.了解表格解决算法;
3.了解探索与利用的平衡策略,运用强化学习解决问题;
二、实验内容与方法
实验内容(三选一):
1. 使用贪心算法和ϵ-贪心算法解决多臂老虎机问题;
2. 使用价值迭代算法完
实验目的:
1.熟悉强化学习相关概念;
2.了解表格解决算法;
3.了解探索与利用的平衡策略,运用强化学习解决问题;
实验内容(三选一):
1. 使用贪心算法和ϵ-贪心算法解决多臂老虎机问题;
2. 使用价值迭代算法完