深度学习06-激活函数(activiation function)

一. 什么是激活函数

获取输出节点的一种函数[2]

二. 为何在神经网络中使用激活函数

神经网络通过激活函数的使用,可将输出限定到一定的范围内。帮助模型适应更多样的数据,并区分输出。

在神经网络中,若神经元接收D个输入x_1, x_2, ...,x_D,此时将输入看为向量x=[x_1;x_2;...;x_D],并用净输入(Net Input)z\in \mathbb{R}来表示一个神经元所获得的输入信号x的加权和[1]。

z = \sum_{d=1}^D w_dx_d+b = w^Tx+b;w是权重(weight),b是偏置(bias)

该式子是一个线性的公式可看作y = ax+b。为了将其转换为非线性,则在z的输入后添加激活函数f

a = f(z)

典型的神经元结构如图所示:

神经元结构[source: V7labs]

非线性函数根据弧度或者输出范围来分类


三,Sigmoid型函数

3.1Sigmoid函数(Logistic 函数)

sigmoid函数的值域为(0,1),适用于预测概率的场景。并适用于多分类场景。

例如:如果一个人随机选择一星期7天中的一天,选择星期日的发生比[4](odds)是
                        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \frac{1/7}{1-(1/7))}=\frac{1/7}{6/7}=\frac{1}{6}

即为:o = \frac{P(x)}{1-P(x)}; [0,+\infty ) ,使用log将区间改为(-\infty ,+\infty )后​​​ :       

  ​​​​​​​        ​​​​​​​                           logit(P(x)) = log(o)=log(\frac{P(x)}{1-P(x)})    

​​​​​​​,此时映射区间为[0, 1]   .假定输入X=log(\frac{P(x)}{1-P(x)}); X\in(-\infty ,+\infty ) ​​​​​​​ :

e^X = \frac{P(x)}{1-P(x)}\\ \frac{1}{e^X} = \frac{1-P(x)}{P(x)} \\ \frac{1}{e^X} =\frac{1}{P(x)} -1\\ \frac{1}{e^X}+1 = \frac{1}{P(x)} \\ \frac{1+e^X}{e^X}=\frac{1}{P(x)}\\ P(x) = \frac{e^X}{1+e^X} = \frac{1}{1+e^{-X}}

  此时P(x),即为sigmoid函数\sigma (x) = \frac{1}{1+exp(-x)};导数为:\frac{d\sigma (x)}{dx} = \frac{exp(-x)}{(1+exp(-x))^2} = \sigma(x)(1 - \sigma(x))

sigmoid的导数曲线如图:

Sigmoid函数的导数刚好属于正态分布,在大部分的输入都转化为在区间[-1,1]的输出。

问题类型        激活函数        损失函数(Loss)
二分类(binary)sigmoidnn.BCELoss():模型最后一层需要经过torch.sigmoid()函数
多分类,单标签(Multiclass)softmaxnn.CrossEntropyLoss():无需手动做softmax
多分类,多标签(Multilabel)sigmoid       sigmoid+nn.BCELoss():模型最后一层要经过sigmoid函数

3.1.1. Softmax

softmax 是将一个向量作为输入[5],

每个输入所对应的概率P\in[0,1],所对应的输入向量X的概率则为:

不同于二分类问题,多分类中若运用sigmoid函数,我们会获得孤立的概率,而非所有预测类别的概率分布。

为了将输入X转换为概率分布,将其使用于指数函数。

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        e^X = e^{\frac{1}{1+e^{-X}}}

此时发生比则为

 将每个发生比相加后,得到:

将其运用于输入X后,得到的输出概率则为:

该输出的概率分布之和为1。

3.2 Tanh函数

如图所示:相对于sigmoid函数来讲,Tanh函数的值域为(-1, 1)。

Tanh函数的导数如图:

四、ReLU函数及其变体

ReLU(x) = max(0,x)=\begin{Bmatrix} x & x\geq 0\\ 0& x< 0 \end{Bmatrix}

4.1 Leaky ReLU

 五、激活函数总结

激活函数的导数图像:

 

Reference:

1. 神经网络基础部件-激活函数详解

2. Activation Functions in Neural Networks

3.Activation Functions in Neural Networks [12 Types & Use Cases]

4. 发生比

5. Sigmoid and SoftMax Functions in 5 minutes

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值