深度学习中的非线性函数

深度学习中的非线性函数

Norm 类

BatchNorm函数

层归一化,稳定训练并提升模型收敛性
对一个样本所有特征计算均值和方法,然后对样本进行归一化
μ = 1 H ∑ i = 1 H x i ,   σ = 1 H ∑ i = 1 H ( x i − μ ) 2 \mu=\frac{1}{H}\sum\limits_{i=1}^{H}x_{i},\ \sigma=\sqrt{\frac{1}{H}\sum\limits_{i=1}^{H}(x_{i}-\mu)^{2}} μ=H1i=1Hxi, σ=H1i=1H(xiμ)2
其中, N ( x ) = x − μ σ ,   h = g   ⊙   N ( x ) + b \text{其中,}N(x)=\frac{x-\mu}{\sigma},\ h=g\ \odot\ N(x)+b 其中,N(x)=σxμ, h=g  N(x)+b
向量维度为H,g、b为可学习的两个参数

RMSNorm

Root Mean Square Layer Normalization proposed in this paper
x i ‾ = x i R M S ( x ) g i ,    R M S ( x ) = 1 H ∑ i = 1 H x i 2 \overline{x_{i}}=\frac{x_{i}}{RMS(x)}g_{i},\ \ RMS(x)=\sqrt{\frac{1}{H}\sum\limits_{i=1}^{H}x_{i}^{2}} xi=RMS(x)xigi,  RMS(x)=H1i=1Hxi2

LLama 模型 引入的 RMSNorm

激活函数

GeLU函数

实际计算时一般将其进行计算,比如:
G E L U ( x ) = 0.5 × x × ( 1 + T a n h ( 2 π × ( x + 0.044715 × x 3 ) ) ) GELU(x)=0.5\times x\times \left(1+Tanh\left(\sqrt{\frac{2}{\pi}}\times (x+0.044715\times x^{3})\right)\right) GELU(x)=0.5×x×(1+Tanh(π2 ×(x+0.044715×x3)))
或者近似为
G E L U ( x ) = x × σ ( 1.702 × x ) = x × e 1.702 x 1 + e 1.702 x GELU(x)=x\times \sigma(1.702\times x)=\frac{x\times e^{1.702x}}{1+e^{1.702x}} GELU(x)=x×σ(1.702×x)=1+e1.702xx×e1.702x
σ ( x ) = 1 1 + e − x = e x 1 + e x \sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^{x}}{1+e^{x}} σ(x)=1+ex1=1+exex

函数图像:
在这里插入图片描述

SiLU函数

s i l u ( x ) = x ∗ σ ( x ) silu(x)=x*\sigma(x) silu(x)=xσ(x)

其中, σ ( x ) \sigma(x) σ(x) 为 Sigmoid函数

函数图像:
在这里插入图片描述

深度学习非线性变换扮演着至关重要的角色。它们的作用主要有以下几个方面: 1. 模型表达能力增强:深度学习模型通常由多个神经网络层组成,每一层都是一个非线性变换。这些非线性变换使得模型能够拟合更加复杂的函数关系,从而增强了模型的表达能力。 2. 解决非线性问题:非线性变换可以帮助模型处理非线性问题。很多实际应用的数据具有复杂的非线性关系,例如图像、语音等。通过引入非线性变换,模型能够更好地捕捉和表示这些数据非线性特征,提高了模型的预测准确性。 3. 特征提取和表示学习:非线性变换可以帮助模型从原始输入提取有用的特征,学习到更加抽象和有意义的表示。通过堆叠多个非线性变换层,模型可以逐渐学习到数据的高级特征,从而更好地区分不同类别或进行更精确的回归预测。 4. 增加模型的灵活性:非线性变换可以使模型更加灵活,能够适应不同类型的数据和任务。线性模型只能学习线性关系,而非线性变换使模型能够处理更复杂的数据结构和模式。 综上所述,非线性变换在深度学习的作用是增强模型的表达能力、解决非线性问题、进行特征提取和表示学习,并增加模型的灵活性。它们使得深度学习模型能够更好地适应和处理现实世界的复杂数据和任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值