关于SoftMax函数的一些介绍

最新推荐文章于 2024-05-13 20:32:49 发布

dfsanshi

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量1.1w

点赞数 10

文章标签： softmax函数 AI基础知识

本文链接：https://blog.csdn.net/u010127033/article/details/82938888

版权

本文探讨了SoftMax函数的数学来源，解释了名称中的"Soft"含义，将其与Hard Max函数对比，并介绍了如何计算及避免计算中的溢出问题。SoftMax在多类分类器中广泛应用，因其在机器学习中的归一化特性，常用于表示概率分布。

摘要由CSDN通过智能技术生成

前言

SoftMax函数是在机器学习中经常出现的，时常出现在输出层中。对于这个函数，大部分blog作者对于它介绍已经很完善了，包括如何玄学设计，如何使用等等，这里只是从数学来源上讨论下这个函数名字的来历，或者说数学的来源，为什么叫做Soft Max（有没有Hard Max）等等。

1.Soft Max的形式

Soft Max 函数，全名Soft Maximum函数。从机器学习过来的同学，更熟其形式为 $\sigma(\mathbf{z})_j=\frac{e^{z_j}}{\Sigma^{K}_{k=1}e^{z_k}}, （1）$ for $j = 1, . . ., K$ . 也被称为归一化指数函数，可以认为其是logistic 函数的一种一般化推广[1]（当k=2就是logistic函数），其将任意的K维实向量 $\mathbf{z}$ 压缩到（squash）各分量为0-1上的K维实向量 $\sigma(\mathbf{z})$ ，并且所有的分量加起来为1（为了保证映射后 $\sigma(\mathbf{z})_j$ 加在一起和为1,你可以理解成概率值）。在概率论里面将softmax函数的输出用来作为分类分布[2]（Categorical distribution)。这也就是softmax函数广泛应用于多类分类器，例如：softmax回归，多类线性判别分析，朴素贝叶斯分类，人工神经网络，以及，最近火热的各种深度学习（ai算法）等等。
相关数学性质详细介绍可以看参考文献[1]以及各类文献。本文在这里无意重复这些工作（例如softmax的求导优势），我们想讨论的是，这个函数的数学由来（而不是数学特性）。