基础概念【softmax|normalizatoin|standardization】

最新推荐文章于 2023-06-14 15:46:24 发布

apk6909

最新推荐文章于 2023-06-14 15:46:24 发布

阅读量473

点赞数

原文链接：http://www.cnblogs.com/zhaopAC/p/10149698.html

版权

一、softmax

二、normalization

三、standardization

一、softmax

为什么使用softmax,不用normalization?

“max” because amplifies probability of largest

“soft” because still assigns some probability to smaller

softmax层是一种归一化的方式，常应用在多分类的最后一阶段，对于网络产生的结果 x_i 执行 softmax(X)_i= exp(x_i) / ∑_jⁿexp(x_j)

作用：

1、将原来的输入归一到[0,1]区间

2、使用exp的意义是 exp是单调递增函数且函数值为正数，这样可以保证根据输出大小得出概率，也是为了之后求导方便，exp的导数为exp

3、上溢和下溢问题

假设所有的x_i都等于某个常数c，我们可以发现所有的输出都是 1/n。从数值上来说，当c的量级很大时，exp(c)就会出现上溢的问题，当c是很小的负数时，exp(c)就会下溢，这意味着softmax的分母会变成0,所以最后的结果是未定义的。

这两个问题能通过计算softmax(z)同时解决，其中 z = x - max_i x_i , 因为softmax解析上的函数值不会因为从输入向量减去或者加上标量而改变即softmax( X - c ) = softmax(X)，通过减去max_i x_i

导致exp的参数最大为0，这排除了上溢的可能，另外对于分母来说至少会有一项是1,这样避免了下溢

4、softmax求导

二、Normalization

1、含义：将数据的值压缩到[0，1]区间，便于不同单位或者量级的指标能够进行比较和加权

2、好处：

1 提高迭代求解的收敛速度

归一化在梯度下降求解中的作用

在梯度下降中多数时候原始数据若没经过特征处理，数据的各个维度是存在着量级的差别，假如线性函数Ax+By+b=C，X维度数量级是十，Y的数量级是万，那么求出的A就比B大，那么在用梯度下降求解最优解过程中，对A求偏导每次变化是和X成线性的（结果只和x相关），对B求偏导是和B成线性的（结果只与y相关），这样就造成两个维度下降速度不一致的问题，在图像上面显示就是A每次走的step很小，B的step很大，可能导致某一个维度由于数量级较大已经到达最低点，而其他维度由于数量级的差异未到达最低点，先到达最低点的维度需要等待其他维度，走出的曲线是震荡性较大图像：
---------------------
作者：golden_xuhaifeng
来源：CSDN
原文：https://blog.csdn.net/golden_xuhaifeng/article/details/79742581
版权声明：本文为博主原创文章，转载请附上博文链接！