大模型LLMs组件系列:激活函数

💡 正如在全连接神经网络那篇文章中介绍Perception时提到的,人工神经网络中的激活函数(activation function)是对生物神经元达到膜电位阈值后发射常数脉冲的模拟,因此从神经生物学视角来看,1958年的感知机Perception中使用的非线性的0-1阶跃/符号函数是最理想的,但在数学层面却不是。阶跃函数不连续不可导,在BP反向传播中会带来巨大的计算问题;此外,对于线性神经网络而言,激活函数又承载着帮助线性结构拟合非线性规律、规范输出范围的功能,还得重点关注梯度问题。因此,激活函数在神经网络模型尤其是大规模的大模型中,核心注意点是四个:引入非线性能力,输出约束特性,梯度友好,计算开销小。

1 激活函数的必要性:非线性能力,输出约束特性

请观察下图中具有单个隐藏层的MLP,并忽略激活函数列出 z ( 2 ) z^{(2)} z(2)的表达式。
在这里插入图片描述

z ( 2 ) = ( x W ( 1 ) + b 1 ) W ( 2 ) + b 2 = x W ( 1 ) W ( 2 ) + b 1 W ( 2 ) + b 2 z^{(2)}=(xW^{(1)}+b_1)W^{(2)}+b_2 = xW^{(1)}W^{(2)}+b_1W^{(2)}+b_2 z(2)=(xW(1)+b1)W(2)+b2=xW(1)W(2)+b1W(2)+b2

可以看到,在两层的神经网络中,如果不考虑激活函数,整个网络可以简化为一个线性的仿射变换,即权重矩阵的乘积作用于输入 x x x加上一个偏置项。因此,去掉激活函数后,两层 MLP 就失去了非线性映射的能力,成为了一个线性模型。因此,是非线性激活函数的存在使得 MLP 能够表达更复杂的函数关系,去掉这些激活函数将使其无法解决非线性问题。Ok,让我们给隐藏层的输出加上Sigmoid激活:

z ( 2 ) = S i g m o i d ( x W ( 1 ) + b 1 ) W ( 2 ) + b 2 = h ( 1 ) W ( 2 )

  • 15
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值