【面试】列举常见的激活函数并推导其导数

Lewiz_124

于 2024-08-09 15:15:00 发布

阅读量629

点赞数 7

分类专栏： # AI面试文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Lewiz_124/article/details/141062714

版权

59 篇文章 0 订阅

订阅专栏

面试官: 你能列举一些常见的激活函数并推导其导数吗？

定义：

Sigmoid 函数将输入映射到 $(0, 1)$ 区间，常用于输出层进行二分类任务。
$\sigma(x) = \frac{1}{1 + e^{-x}}$
导数推导：
对 Sigmoid 函数求导：
$\frac{d\sigma(x)}{dx} = \frac{d}{dx} \left(\frac{1}{1 + e^{-x}}\right)$
通过链式法则，首先求 $e^{-x}$ 对 $x$ 的导数：
$\frac{d}{dx}(1 + e^{-x}) = -e^{-x}$
然后对整个函数求导：
$\frac{d\sigma(x)}{dx} = \frac{-(-e^{-x})}{(1 + e^{-x})^2} = \frac{e^{-x}}{(1 + e^{-x})^2}$
使用 Sigmoid 函数的定义：
$\frac{d\sigma(x)}{dx} = \sigma(x)(1 - \sigma(x))$
解释：
Sigmoid 函数的导数也是一个 Sigmoid 函数的函数，最大值出现在 $x = 0$ 处，值为 $\frac{1}{4}$ 。

定义：

Tanh 函数是 Sigmoid 函数的缩放和平移版本，将输入映射到 $(- 1, 1)$ 区间，通常用于隐藏层激活。
$\text{tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
导数推导：
对 Tanh 函数求导：
$\frac{d}{dx}\text{tanh}(x) = \frac{d}{dx}\left(\frac{e^x - e^{-x}}{e^x + e^{-x}}\right)$
使用商的导数法则：
$\frac{d}{dx}\text{tanh}(x) = \frac{(e^x + e^{-x})(e^x + e^{-x}) - (e^x - e^{-x})(e^x - e^{-x})}{(e^x + e^{-x})^2}$
简化得：
$\frac{d}{dx}\text{tanh}(x) = \frac{4e^{2x}}{(e^x + e^{-x})^2} = 1 - \text{tanh}^2(x)$
解释：
Tanh 函数的导数可以表示为 $\text{tanh}^2(x)$ ，它在 $x = 0$ 处取最大值1。

定义：

ReLU 是目前最常用的激活函数之一，将输入大于零的部分保留，小于零的部分截断为零。
$\text{ReLU}(x) = \max(0, x)$
导数推导：
ReLU 函数的导数是分段函数：
$\frac{d}{dx}\text{ReLU}(x) = \begin{cases} 1 & x > 0 \\ 0 & x \leq 0 \end{cases}$
解释：
ReLU 的导数在 $x > 0$ 时为1，在 $\leq 0$ 时为0。这使得 ReLU 函数在正向传播中保持非线性，而在反向传播中仍然保持计算的简便性。

定义：

Leaky ReLU 是 ReLU 的变种，允许小于零的部分也有一个很小的斜率（通常为0.01），以避免 ReLU 的“死亡神经元”问题。
$\text{Leaky ReLU}(x) = \begin{cases} x & x > 0 \\ \alpha x & x \leq 0 \end{cases}$
其中， $\alpha$ 是一个很小的正数。

导数推导：

Leaky ReLU 函数的导数也是分段函数：
$\frac{d}{dx}\text{Leaky ReLU}(x) = \begin{cases} 1 & x > 0 \\ \alpha & x \leq 0 \end{cases}$
解释：
Leaky ReLU 的导数在 $x > 0$ 时为1，在 $\leq 0$ 时为 $\alpha$ ，避免了 ReLU 的零梯度问题。

定义：

Softmax 函数常用于多分类问题的输出层，将输入向量转换为概率分布。对于输入向量 $[z_1, z_2, \dots, z_n]$ ，Softmax 函数定义为：
$\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}}$
导数推导：
由于涉及多个变量，Softmax 函数的导数比较复杂，对于 Softmax 输出 $y_i$ 和输入 $z_j$ ，导数为：
$\frac{\partial y_i}{\partial z_j} = y_i (\delta_{ij} - y_j)$
其中， $\delta_{ij}$ 是Kronecker delta，即当 $i = j$ 时， $\delta_{ij} = 1$ ；否则 $\delta_{ij} = 0$ 。

解释：

Sigmoid 函数： $\sigma(x) = \frac{1}{1 + e^{-x}}$ ，导数为 $\sigma(x)(1 - \sigma(x))$ 。
Tanh 函数： $\text{tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ ，导数为 $\text{tanh}^2(x)$ 。
ReLU 函数： $\text{ReLU}(x) = \max(0, x)$ ，导数为 $1$ （当 $x > 0$ 时），否则为 $0$ 。
Leaky ReLU 函数： $\text{Leaky ReLU}(x) = \max(\alpha x, x)$ ，导数为 $1$ （当 $x > 0$ 时），否则为 $\alpha$ 。
Softmax 函数： $\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}$ ，导数为 $y_i (\delta_{ij} - y_j)$ 。