- 博客(1)
- 收藏
- 关注
转载 n-armed bandit problem
1、实验的目的 这个实验的目的是想说明,只要一个action被选择的次数足够多,其Qt(a)就会收敛到Qt*(a),即,该action的action value。而使用ε-greedy算法,能够最终找到action value最大的那个action。 2、仿真实验过程 首先要明白,凡是仿真,都是要重复实验的,最主要的目的是降低随机性的影响,尽管这个n-armed bandit
2016-02-22 16:46:25 723
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人