- 博客(1)
- 收藏
- 关注
原创 n-armed bandit problem
n-armed bandit problem的ε-greedy算法1、实验的目的 这个实验的目的是想说明,只要一个action被选择的次数足够多,其Qt(a)就会收敛到Qt*(a),即,该action的action value。而使用ε-greedy算法,能够最终找到action value最大的那个action。2、仿真实验过程 首先要明白,凡是仿真,都是要重复实验的
2006-11-03 23:36:00
1508
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人