Structure
Softmax 前:logits(
z
i
z_i
zi),后:probability(
q
i
q_i
qi)
q
i
=
e
x
p
(
z
i
/
T
)
∑
j
e
x
p
(
z
j
/
T
)
q_i=\frac {exp(z_i/T)}{\sum_jexp(z_j/T)}
qi=∑jexp(zj/T)exp(zi/T)
交叉熵梯度函数:
Fun. 1泰勒展开得Fun. 2
若:logits 均值为0,及
∑
j
z
j
=
∑
j
v
j
=
0
\sum_jz_j=\sum_jv_j=0
∑jzj=∑jvj=0
则得:
T >= 1
T很大时:求
1
2
(
z
i
−
v
i
)
2
\frac{1}{2(z_i-v_i)^2}
2(zi−vi)21最小
T小时:更不关注于负logits(算噪声),但负logits中可能包含有用信息
原文:
Experiment
Subject
MNIST 和 语音识别
Structure
MNIST
单Teacher: 两层FC,每层1200个神经元,后面加Dropout。错67个
单Student: 两层FC,每层800个神经元,无Dropout。错146个
合:错74个。T=20
有意思的东西:
1、Student训练时去掉“3”的数据集,错206,其中有133个是对“3”的辨识错误(测试集中“3”有1010个)。原因是bias过低,增加bias,错109个,其中14个是“3”。
2、训练集只有“7”、“8”时,错误率47.3%,bias降低优化,错误率降至13.2%。
问题:手动调节bias有什么意义?有什么办法可以自动调节bias吗,若有,可以解决数据丢失问题
语音识别
暂时用不到,下次整理