神经网络算法 - 一文搞懂 Softmax 函数

最新推荐文章于 2025-03-18 12:10:32 发布

Cc不爱吃洋葱

最新推荐文章于 2025-03-18 12:10:32 发布

阅读量2.1w

点赞数 44

文章标签：神经网络算法人工智能自然语言处理大语言模型 AI大模型深度学习

本文链接：https://blog.csdn.net/2401_85328934/article/details/141635998

版权

本文将从Softmax的本质、Softmax的原理、Softmax的应用三个方面，带您一文搞懂 Softmax 函数。

Softmax激活函数

**__**一、Softmax**__**_****_**_**的**_**本质_****_

Softmax一般用来作为神经网络的最后一层，用于多分类问题的输出。其本质是一种激活函数，将一个数值向量归一化为一个概率分布向量，且各个概率之和为1。
Softmax激活函数

分类问题： 根据输入数据的特征将其划分到预定义的类别中。

在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)。分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。

根据类别的数量可将分类问题分为二分类和多分类。

二分类（Binary classification）：表示分类任务中有两个类别。在二分类中，我们通常使用一些常见的算法来进行分类，如逻辑回归、支持向量机等。
多分类（Multi-class** classification）**：表示分类任务中有多个类别。在多分类中，我们可以使用一些常见的算法来进行分类，如决策树、随机森林等。

二分类和多分类

激活函数： 一种添加到人工神经网络中的函数，旨在帮助网络学习数据中的复杂模式。

激活函数

在神经元中，输入的input经过一系列加权求和后作用于另一个函数，这个函数就是这里的激活函数。类似于人类大脑中基于神经元的模型，激活函数最终决定了是否传递信号以及要发射给下一个神经元的内容。

激活函数为神经网络引入了非线性元素，使得网络能够逼近复杂的非线性函数，从而解决更广泛的问题。

激活函数

激活函数： 一种添加到人工神经网络中的函数，旨在帮助网络学习数据中的复杂模式。

对于二分类问题，Sigmoid是一个常用的激活函数，它将任意实数映射到(0, 1)区间，这个区间内的数值可以自然地解释为概率。

Sigmoid函数

对于多分类问题，Softmax则是一个非常重要的工具。它可以将一个向量转换为一组概率值，这些概率值的总和为1。

Softmax函数

常见的激活函数，Sigmoid、Tanh、Relu和Softmax。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

_**二、Softmax_**_**_**_****_**_**的**_**原理_****_**_**_**_**_

神经网络的原理： 通过前向传播计算预测值，通过损失函数衡量预测值与真实值之间的差距，通过反向传播计算梯度并更新参数，以及通过激活函数引入非线性因素。

前向传播：数据从输入层经过隐藏层流向输出层，每层通过权重和偏置进行线性变换，并经过激活函数得到非线性输出。
激活函数：为神经网络引入非线性，提升模型的表达能力。
损失函数：衡量预测值与真实值之间的差距，如均方误差用于回归，交叉熵用于分类。
反向传播：根据损失函数的梯度信息，从输出层逐层向输入层计算参数的梯度，并更新参数，以最小化损失函数值。
梯度下降：一种优化算法，根据计算出的梯度按一定学习率更新网络参数，逐步逼近最优解。

Softmax的数学原理：对于一个给定的实数向量，它首先计算每一个元素的指数（e的幂），然后每个元素的指数与所有元素指数总和的比值，就形成了softmax函数的输出。这种计算方式不仅使输出值落在0到1之间，还保证了所有输出值的总和为1。

Softmax数学原理

_**三、Softmax的应用**_

CNN的架构： 由卷积层、池化层和全连接层构成。卷积层通过卷积核提取图像的局部特征，池化层通过下采样实现数据降维，全连接层则输出最终结果。

CNN的架构

CNN的Softmax层： 一种常见的分类层，它通常是放置在卷积神经网络的最后一层，用于将卷积神经网络输出的特征图转换为概率分布。

CNN的Softmax层

Transformer的架构： 通过输入嵌入、位置编码、多头注意力、残差连接和层归一化、带掩码的多头注意力以及前馈网络等组件，实现了对输入序列的高效编码和输出序列的生成。

Transformer的架构

Transformer中的Softmax： 用于将原始注意力分数转换为输入标记的概率分布。这种分布将较高的注意力权重分配给更相关的标记，并将较低的权重分配给不太相关的标记。Transformers通过Softmax在生成输出时，使用注意力机制来权衡不同输入标记的重要性。

Transformer的Softmax层

如何学习AI大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

学习路线

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓