LLM常见问题（激活函数部分）

AI-椰子不椰

于 2024-09-04 11:25:19 发布

阅读量529

点赞数 6

文章标签：大模型学习大模型教程 AI大模型人工智能大模型入门大模型

本文链接：https://blog.csdn.net/2401_85343303/article/details/141888732

版权

1. 介绍一下 FFN 块？

FFN（Feed-Forward Network）块是 Transformer 模型中的一个重要组成部分，用于对输入数据进行非线性变换。它由两个全连接层（即前馈神经网络）和一个激活函数组成。下面是 FFN 块的计算公式：

假设输入是一个向量 x，FFN块的计算过程如下：

第一层全连接层（线性变换）： z = xW1 + b1 其中，W1 是第一层全连接层的权重矩阵，b1 是偏置向量。激活函数： a = g(z) 其中，g() 是激活函数，通常使用 GeLU。第二层全连接层（线性变换）： y = aW2 + b2 其中，W2 是第二层全连接层的权重矩阵，b2 是偏置向量。在 Transformer 模型中，FFN 块通常被应用在每个 Transformer 编码层的每个位置上，用于对位置编码的向量进行非线性变换。这样可以增加模型的表达能力，提高对输入数据的建模能力。

2. 介绍一下 GeLU 计算公式？

GeLU（Gaussian Error Linear Unit）是一种激活函数，常用于神经网络中的非线性变换。它在 Transformer 模型中广泛应用于 FFN（Feed-Forward Network）块。下面是 GeLU 的计算公式：

GeLU(x) = 0.5 * x * (1 + tanh(sqrt(2 / pi) * (x + 0.044715 * x^3)))

其中，tanh() 是双曲正切函数，sqrt() 是平方根函数，pi 是圆周率。

GeLU函数的特点是在接近零的区域表现得类似于线性函数，而在远离零的区域则表现出非线性的特性。相比于其他常用的激活函数（如ReLU），GeLU函数在某些情况下能够提供更好的性能和更快的收敛速度。

3. 介绍一下 Swish 计算公式？

Swish 是一种激活函数，它在深度学习中常用于神经网络的非线性变换。Swish 函数的计算公式如下：

Swish(x) = x * sigmoid(beta * x)

其中，sigmoid() 是Sigmoid函数，x 是输入，beta 是一个可调节的超参数。

Swish函数的特点是在接近零的区域表现得类似于线性函数，而在远离零的区域则表现出非线性的特性。相比于其他常用的激活函数（如ReLU、tanh等），Swish函数在某些情况下能够提供更好的性能和更快的收敛速度。

Swish函数的设计灵感来自于自动搜索算法，它通过引入一个可调节的超参数来增加非线性程度。当beta为0时，Swish函数退化为线性函数；当beta趋近于无穷大时，Swish函数趋近于ReLU函数。

4. 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式？

使用 GLU（Gated Linear Unit）线性门控单元的 FFN（Feed-Forward Network）块是 Transformer 模型中常用的结构之一。它通过引入门控机制来增强模型的非线性能力。下面是使用GLU线性门控单元的 FFN 块的计算公式：

假设输入是一个向量 x，GLU线性门控单元的计算公式如下：

GLU(x) = x * sigmoid(W_1 * x)

其中，sigmoid() 是 Sigmoid 函数，W_1 是一个可学习的权重矩阵。

GLU线性门控单元的特点是能够对输入向量进行选择性地激活，从而增强模型的表达能力。

5. 介绍一下使用 GeLU 的 GLU 块计算公式？

使用 GeLU 作为激活函数的 GLU 块的计算公式如下：

GLU(x) = x * GeLU(W_1 * x)

其中，GeLU() 是 Gaussian Error Linear Unit 的激活函数，W_1 是一个可学习的权重矩阵。

在公式中，首先将输入向量 x 通过一个全连接层（线性变换）得到一个与 x 维度相同的向量，然后将该向量作为输入传递给GeLU激活函数进行非线性变换。最后，将GeLU激活函数的输出与输入向量 x 逐元素相乘，得到最终的输出向量。

6. 介绍一下使用 Swish 的 GLU 块计算公式？

使用Swish作为激活函数的GLU块的计算公式如下：

GLU(x) = x * sigmoid(W_1 * x) （1）

其中，sigmoid() 是 Sigmoid 函数，W_1 是一个可学习的权重矩阵。

在公式中，首先将输入向量 x 通过一个全连接层（线性变换）得到一个与 x 维度相同的向量，然后将该向量通过 Sigmoid 函数进行激活。这个Sigmoid函数的输出称为门控向量，用来控制输入向量 x 的元素是否被激活。最后，将门控向量与输入向量 x 逐元素相乘，得到最终的输出向量。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI-椰子不椰

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
LLM常见问题（激活函数部分）

FFN（Feed-Forward Network）块是 Transformer 模型中的一个重要组成部分，用于对输入数据进行非线性变换。它由两个全连接层（即前馈神经网络）和一个激活函数组成。下面是 FFN 块的计算公式：假设输入是一个向量 x，FFN块的计算过程如下：第一层全连接层（线性变换）： z = xW1 + b1 其中，W1 是第一层全连接层的权重矩阵，b1 是偏置向量。激活函数： a = g(z) 其中，g() 是激活函数，通常使用 GeLU。
复制链接

扫一扫