大模型LLMs组件系列：激活函数

最新推荐文章于 2024-08-27 18:04:10 发布

原地漫游

最新推荐文章于 2024-08-27 18:04:10 发布

阅读量528

点赞数 15

分类专栏：大模型LLMs组件系列文章标签：人工智能语言模型自然语言处理神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jpw41/article/details/141439167

版权

💡 正如在全连接神经网络那篇文章中介绍Perception时提到的，人工神经网络中的激活函数（activation function）是对生物神经元达到膜电位阈值后发射常数脉冲的模拟，因此从神经生物学视角来看，1958年的感知机Perception中使用的非线性的0-1阶跃/符号函数是最理想的，但在数学层面却不是。阶跃函数不连续不可导，在BP反向传播中会带来巨大的计算问题；此外，对于线性神经网络而言，激活函数又承载着帮助线性结构拟合非线性规律、规范输出范围的功能，还得重点关注梯度问题。因此，激活函数在神经网络模型尤其是大规模的大模型中，核心注意点是四个：引入非线性能力，输出约束特性，梯度友好，计算开销小。

1 激活函数的必要性：非线性能力，输出约束特性

请观察下图中具有单个隐藏层的MLP，并忽略激活函数列出 $z^{(2)}$ 的表达式。
在这里插入图片描述

$z^{(2)}=(xW^{(1)}+b_1)W^{(2)}+b_2 = xW^{(1)}W^{(2)}+b_1W^{(2)}+b_2$

可以看到，在两层的神经网络中，如果不考虑激活函数，整个网络可以简化为一个线性的仿射变换，即权重矩阵的乘积作用于输入 $x$ 加上一个偏置项。因此，去掉激活函数后，两层 MLP 就失去了非线性映射的能力，成为了一个线性模型。因此，是非线性激活函数的存在使得 MLP 能够表达更复杂的函数关系，去掉这些激活函数将使其无法解决非线性问题。Ok，让我们给隐藏层的输出加上Sigmoid激活：

最低0.47元/天解锁文章

关注

15
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
大模型LLMs组件系列：激活函数

💡 正如在全连接神经网络那篇文章中介绍Perception时提到的，人工神经网络中的激活函数（activation function）是对生物神经元达到膜电位阈值后发射常数脉冲的模拟，因此从神经生物学视角来看，1958年的感知机Perception中使用的非线性的0-1阶跃/符号函数是最理想的，但在数学层面却不是。阶跃函数不连续不可导，在BP反向传播中会带来巨大的计算问题；此外，对于线性神经网络而言，激活函数又承载着帮助线性结构拟合非线性规律、规范输出范围的功能，还得重点关注梯度问题。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。