LR为什么用sigmoid函数，这个函数有什么优点和缺点？为什么不用其他函数？

最新推荐文章于 2022-05-12 12:27:00 发布

你今天机器学习了么

最新推荐文章于 2022-05-12 12:27:00 发布

阅读量3.3k

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/None_Pan/article/details/106082621

版权

一，功能的基本性质

首先，Sigmoid的公式形式：

在这里插入图片描述
公式图像：

该函数的基本属性：

定义域：（-∞，+∞）（-∞，+∞）
值范围：（-1,1）（-1,1）
函数是域内的连续且平滑的函数
它可以在任何地方被引导，并且导数是：f’（x）= f（x）（1-f（x））
最早的Logistic功能由Pierre Francois Veluer在1844或1845年研究其与人口增长的关系时命名。在某些情况下，广义逻辑曲线可以模仿人口增长的S形曲线（P）。初始阶段大约是指数增长。然后它开始变得饱和时变慢。最终，它会在到期时停止增加。1

二，Sigmoid Function 与逻辑回归

Sigmoid函数之所以称为Sigmoid，是因为该函数的图像像字母S。此函数是一个非常有趣的函数。从图像中我们可以观察到一些直观的特征：该函数的值在0-1之间，并且在0.5处是中心对称的，并且越接近x = 0的值斜率越大。

机器学习（LR）的重要预测模型是基于Sigmoid函数的。 LR模型的主要任务是给出一些历史{X，Y}，其中X是样本n个特征值，对于正和负情况，Y的值分别为{0，1}，方法是学习这些历史样本。要获得一个数学模型，给定一个新的X可以预测Y。LR模型是一个两类模型，可以预测X是否发生。但是实际上，对于事件发生，通常不能得到100 ％的预测，因此LR可以得出事件的可能性，超过50％的人认为该事件发生，少于50％的人认为该事件未发生

第三，为什么要选择Sigmoid函数？

但是为什么我们选择Sigmoid函数而不是其他函数呢？这实际上是我一直感到困惑的一点。例如，如果您仔细观察以上两个条件，不仅Sigmoid可以满足这两个条件，而且还存在无数种曲线函数，其值介于0-1和以0.5为中心。

我们可以尝试从两个方面解释为什么选择Sigmoid函数。
首先：

LR要求（选择Sigmoid即可）
上面我们直观地解释了LR可以选择Sigmoid。下面以数学方式解释LR模型的原理。

对于分类模型，我们需要给出学习目标。对于LR模型，此目标是使条件可能性最大化。对于给定的样本向量x，我们可以指示其对应的类标志y出现。概率为P（y | x; w）P（y | x; w）。在此基础上，定义最大似然函数学习w，并且可以获得有效的LR分类模型。

仔细看一下上面关于LR的描述，LR模型的重点是如何定义该条件概率P（y | x; w）。对于有效的分类器，通常响应值（当值时）w⋅x（w和x的内积）表示对数据x属于正类（y = 1）的置信度。 w·x越大，该数据成为正数的可能性就越大； w⋅xw⋅x越小，它成为反类的可能性就越大。因此，如果我们有一个将w⋅xw⋅x映射到条件概率P（y = 1 | x; w）的函数，则Sigmoid函数恰好可以做到这一点（请参见Sigmoid函数的形状）：首先，其值范围为（0,1），满足概率要求;第二，它是单调上升的函数。最后，p（y = 1 | x，w）= Sigmoid（w⋅x）。sigmoid这些良好特性正好满足LR的需求。

其次
Sigmoid的特殊性（为什么选择Sigmoid）
这里有两种解释：

正态分布解释
在大多数情况下，无法知道未知事件的概率分布，并且在没有知识的情况下，正态分布是最佳选择，因为它是所有概率分布的最可能表示。在笛卡尔坐标系中，正态分布的函数呈“钟形”形状，在假定事件的概率分布符合正态分布规律之后，要分析事件的发生概率，有必要查看其整体形式。

Sigmoid函数和正态分布函数的积分形式的形状非常相似。但是，正态分布的积分函数的计算非常昂贵，并且Sigmoid的形式与此类似。但是，由于公式简单且计算量很小，因此选择它作为替换函数。

最大熵解释

解释是，在给出某些假设之后，我们希望在给出假设的情况下分布尽可能均匀。对于Logistic回归，我们假设对于{X，Y}，我们的预测目标是Y | XY | X，并且假设Y | XY | X遵循伯努利分布，因此我们只需要知道P（Y | X）P （Y | X）; 其次，我们需要一个线性模型，因此P（Y | X）= f（wx）P（Y | X）= f（wx）。接下来，我们只需要知道f是什么。我们可以通过最大熵原理引入的这个f是sigmoid.

你今天机器学习了么

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
LR为什么用sigmoid函数，这个函数有什么优点和缺点？为什么不用其他函数？

一，功能的基本性质首先，Sigmoid的公式形式：公式图像：该函数的基本属性：定义域：（-∞，+∞）（-∞，+∞）值范围：（-1,1）（-1,1）函数是域内的连续且平滑的函数它可以在任何地方被引导，并且导数是：f’（x）= f（x）（1-f（x））最早的Logistic功能由Pierre Francois Veluer在1844或1845年研究其与人口增长的关系时命名。在某些情况下，广义逻辑曲线可以模仿人口增长的S形曲线（P）。初始阶段大约是指数增长。然后它开始变得饱和时变慢。最终，它会在到
复制链接

扫一扫