大模型面试准备（十一）：深入剖析Transformer - 前馈神经网络

最新推荐文章于 2025-04-07 10:55:03 发布

大模型与计算机视觉

最新推荐文章于 2025-04-07 10:55:03 发布

阅读量2.2k

点赞数 24

分类专栏：算法学习笔记文章标签：面试 transformer 神经网络人工智能算法深度学习大模型

本文链接：https://blog.csdn.net/2401_84033492/article/details/137428278

版权

187 篇文章

订阅专栏

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。

本系列文章的初衷是带领大家深入剖析Transformer，逐步揭示其内在机制和工作原理。本系列第四篇：前馈神经网络，它是理解Transformer工作原理的基础。

在Transformer模型中，除了注意力子层之外，编码器和解码器中的每一层都包含一个全连接的前馈神经网络，该网络分别且相同地应用于每个位置。这包括两个线性变换，并在它们之间使用ReLU激活函数。

生物神经网络

生物神经网络（Biological Neural Networks） 是指生物体内一群由突触相互链接的特定神经元群体，其负责传递、执行一项特定功能，并与其他神经回路共同构筑大脑更高阶的神经网络，并产生个体的意识，协助生物进行思考和行动。

大脑神经元是生物神经系统中的基本单元，它们负责接收、整合、处理和传递信息，从而支持生物的感知、思考、记忆和行为等多种功能。

人工神经网络

人工神经网络（artificial neural network，ANN） 简称神经网络（neural network，NN**）或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是**大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

圆形节点作为人工神经元，通过连接传递信号，利用权重和激励函数共同影响网络输出，从而模拟生物神经网络的工作方式。

圆形节点与人工神经元：这些神经元是ANN的基本构建单元，它们模拟生物神经网络中的神经细胞的工作方式。
连接与信号传递：神经元之间的连接是通过箭头表示的，这些箭头指示了信号在网络中的流动方向。
权重与激励函数：每个连接都有一个与之相关的权重值，这个权重决定了前一个神经元对后一个神经元的影响程度。激励函数则决定了神经元如何根据输入和权重产生输出。常见的激励函数包括Sigmoid函数、ReLU（Rectified Linear Unit）函数等。
网络输出：人工神经网络的输出是由多个神经元共同作用产生的。网络的结构（即神经元的连接方式）、权重值以及激励函数的选择共同决定了网络如何处理输入数据并产生输出。

神经网络训练

神经网络的训练过程涉及前向传播生成预测、计算预测与真实值间的误差、通过反向传播计算梯度、使用梯度下降更新权重和偏置，并重复迭代直至满足停止条件。