hyper parameter的选择
- grid search vs 随机抽样
- β的选择
grid search vs 随机抽样
grid search:所有超参数取有限多种可能的值,遍历每种可能的取值组合,挑选出最优组合。
明显的缺点:不同重要性的超参数被一视同仁。
例如:α明显比epsilon重要。如果α有5种可能的取值,epsilon有5种可能的取值,遍历25种可能的组合,实际上只有5种有效组合。因为α相同,epsilon不同的5种组合效果基本上是相同的。
随机抽样:所有超参数在某一连续范围内取值,因此可能的取值有无限多种。
例如:α在
[
0
,
0.001
]
[0,0.001]
[0,0.001]之间取值,epsilon在
[
0.001
,
0.002
]
[0.001,0.002]
[0.001,0.002]之间取值。这样取25组,可能每次α的值都不相同。
β的选择
β是指数平均算法中的
v
d
W
L
−
1
v_{dW_{L-1}}
vdWL−1前面的系数。
重要的原则:β不能均匀抽样,而是应该对β的指数均匀抽样。
e.g.
r=-4*np.random.randn()
β=np.power(10,r)
效果:生成β
∈
[
0.0001
,
1
]
∈[0.0001,1]
∈[0.0001,1]
为什么要对指数均匀抽样?
β越接近1,cost function对β的变化越敏感。
e.g. β=0.9->β=0.9005:前10个指数平均值->前1/0.0995≈10个指数平均值
β=0.999->β=0.9995:前1000个指数平均值->前2000个指数平均值