神经网络不同样本输出值一样的处理（个人记录）

Kadima08

已于 2023-02-24 10:35:12 修改

阅读量1.2k

点赞数 2

分类专栏： MyML 文章标签：神经网络

于 2023-02-22 22:54:30 首次发布

本文链接：https://blog.csdn.net/Kadima08/article/details/129172364

版权

MyML 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

过拟合

添加正则项，weight_decay
激活函数sigmoid改为ReLU等，尤其是最后输出

Sigmoid

慎重使用：
当x>4和x<-4的时候，导数函数的取值趋近于0，使得当参数W迭代更改时，W几乎不变，饱和区范围广，使得网络很难得到有效的训练，发生梯度消失；同时需要进行指数运算，计算量大，而且反向传播求误差梯度时，很容易出现梯度消失的问题，使得不能完成深层网络的训练；除此外，sigmoid激活函数不是关于原点中心对称的。
吴恩达在深度学习课程中说tanh激活函数几乎在任何场合的性能都优于sigmoid激活函数，除了输出层和二分类，使用sigmoid会更好点。

Tanh

tanh 函数与 Sigmoid 函数一样，也存在饱和区梯度消失问题。其饱和区甚至比 Sigmoid 还要大一些，但不明显。

ReLU

优点：没有饱和区，不存在梯度消失问题。没有复杂的指数运算，计算简单、效率提高。实际收敛速度较快，大约是 Sigmoid/tanh 的 6 倍。比 Sigmoid 更符合生物学神经激活机制。
缺点：当 x<0 时，ReLU 输出总为零。该神经元输出为零，则反向传播时，权重、参数的梯度横为零，造成权重、参数永远不会更新，即造成神经元失效，形成了“死神经元”。

Leaky ReLU

不会造成神经元失效，形成了“死神经元”。

elu

不会造成神经元失效，形成了“死神经元”。
输出均值为零
负饱和区的存在使得 ELU 比 Leaky ReLU 更加健壮，抗噪声能力更强。

tips：

1）首选 ReLU，速度快，但是要注意学习速率的调整，
2）如果 ReLU 效果欠佳,尝试使用 Leaky ReLU、ELU 或 Maxout 等变种。
3）可以尝试使用 tanh。
4）Sigmoid 和 tanh 在 RNN（LSTM、注意力机制等）结构中有所应用，作为门控或者概率值。其它情况下，减少 Sigmoid 的使用。
5）在浅层神经网络中，选择使用哪种激励函数影响不大。
添加normalization layers