深度学习中的非线性函数

黎明沐白

已于 2024-07-29 14:49:35 修改

阅读量742

点赞数 25

分类专栏：人工智能文章标签：深度学习人工智能神经网络

于 2024-07-28 10:55:32 首次发布

本文链接：https://blog.csdn.net/qq_42047140/article/details/140747860

版权

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

深度学习中的非线性函数

Norm 类

BatchNorm函数

层归一化，稳定训练并提升模型收敛性
对一个样本所有特征计算均值和方法，然后对样本进行归一化
$\mu=\frac{1}{H}\sum\limits_{i=1}^{H}x_{i},\ \sigma=\sqrt{\frac{1}{H}\sum\limits_{i=1}^{H}(x_{i}-\mu)^{2}}$
$\text{其中，}N(x)=\frac{x-\mu}{\sigma},\ h=g\ \odot\ N(x)+b$
向量维度为H，g、b为可学习的两个参数

RMSNorm

Root Mean Square Layer Normalization proposed in this paper
$\overline{x_{i}}=\frac{x_{i}}{RMS(x)}g_{i},\ \ RMS(x)=\sqrt{\frac{1}{H}\sum\limits_{i=1}^{H}x_{i}^{2}}$

LLama 模型引入的 RMSNorm

激活函数

GeLU函数

实际计算时一般将其进行计算，比如：
$GELU(x)=0.5\times x\times \left(1+Tanh\left(\sqrt{\frac{2}{\pi}}\times (x+0.044715\times x^{3})\right)\right)$
或者近似为
$GELU(x)=x\times \sigma(1.702\times x)=\frac{x\times e^{1.702x}}{1+e^{1.702x}}$
$\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^{x}}{1+e^{x}}$