深度学习06-激活函数(activiation function)-CSDN博客

本文链接：https://blog.csdn.net/weixin_43399179/article/details/134288395

一. 什么是激活函数

获取输出节点的一种函数[2]

二. 为何在神经网络中使用激活函数

神经网络通过激活函数的使用，可将输出限定到一定的范围内。帮助模型适应更多样的数据，并区分输出。

在神经网络中，若神经元接收D个输入 $x_1, x_2, ...,x_D$ ，此时将输入看为向量 $x=[x_1;x_2;...;x_D]$ ，并用净输入（Net Input） $z\in \mathbb{R}$ 来表示一个神经元所获得的输入信号x的加权和[1]。

$z = \sum_{d=1}^D w_dx_d+b = w^Tx+b$ ；w是权重（weight），b是偏置（bias）

该式子是一个线性的公式可看作 $y = ax+b$ 。为了将其转换为非线性，则在z的输入后添加激活函数 $f$ 。

$a = f(z)$

典型的神经元结构如图所示：

非线性函数根据弧度或者输出范围来分类

三，Sigmoid型函数

3.1Sigmoid函数（Logistic 函数）

sigmoid函数的值域为 $(0,1)$ ，适用于预测概率的场景。并适用于多分类场景。

例如：如果一个人随机选择一星期7天中的一天，选择星期日的发生比[4]（odds）是
$\frac{1/7}{1-(1/7))}=\frac{1/7}{6/7}=\frac{1}{6}$

即为： $o = \frac{P(x)}{1-P(x)}; [0,+\infty )$ ，使用log将区间改为 $(-\infty ,+\infty )$ 后：

$logit(P(x)) = log(o)=log(\frac{P(x)}{1-P(x)})$

,此时映射区间为[0, 1] .假定输入 $X=log(\frac{P(x)}{1-P(x)}); X\in(-\infty ,+\infty )$ ：

$e^X = \frac{P(x)}{1-P(x)}\\ \frac{1}{e^X} = \frac{1-P(x)}{P(x)} \\ \frac{1}{e^X} =\frac{1}{P(x)} -1\\ \frac{1}{e^X}+1 = \frac{1}{P(x)} \\ \frac{1+e^X}{e^X}=\frac{1}{P(x)}\\ P(x) = \frac{e^X}{1+e^X} = \frac{1}{1+e^{-X}}$

此时P(x)，即为sigmoid函数 $\sigma (x) = \frac{1}{1+exp(-x)}$ ；导数为： $\frac{d\sigma (x)}{dx} = \frac{exp(-x)}{(1+exp(-x))^2} = \sigma(x)(1 - \sigma(x))$

sigmoid的导数曲线如图：

Sigmoid函数的导数刚好属于正态分布，在大部分的输入都转化为在区间[-1,1]的输出。

问题类型	激活函数	损失函数（Loss）
二分类（binary）	sigmoid	nn.BCELoss()：模型最后一层需要经过torch.sigmoid()函数
多分类，单标签（Multiclass）	softmax	nn.CrossEntropyLoss()：无需手动做softmax
多分类，多标签（Multilabel）	sigmoid	sigmoid+nn.BCELoss()：模型最后一层要经过sigmoid函数