原本是用来柔化输出值,减小值之间的差。
p[i]=exp(y[i]);
S是所有p[i]的和;
但是当我们需要 L=p[i]/S,而全体p[i]都是0,就会报错,所以实际中我们采用的是:
p[i]=exp(y[i]-max_y_i);
用来归一化p[i]到0~1之间.
论文在此:http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf,p1146
原本是用来柔化输出值,减小值之间的差。
p[i]=exp(y[i]);
S是所有p[i]的和;
但是当我们需要 L=p[i]/S,而全体p[i]都是0,就会报错,所以实际中我们采用的是:
p[i]=exp(y[i]-max_y_i);
用来归一化p[i]到0~1之间.
论文在此:http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf,p1146