2016年02月_琥珀彩

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

转载 n-armed bandit problem

1、实验的目的这个实验的目的是想说明，只要一个action被选择的次数足够多，其Qt(a)就会收敛到Qt*(a)，即，该action的action value。而使用ε-greedy算法，能够最终找到action value最大的那个action。 2、仿真实验过程首先要明白，凡是仿真，都是要重复实验的，最主要的目的是降低随机性的影响，尽管这个n-armed bandit

2016-02-22 16:46:25 723

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人