牛客网算法八股刷题系列(二)卷积函数、随机梯度下降、ReLU

牛客网算法八股刷题系列——卷积函数、随机梯度下降、ReLU

题目描述
- 正确答案： $\mathcal B$
- 题目解析

题目描述

本节并不过多针对题目中的非线性，而更多关注随机梯度下降、卷积运算自身以及卷积运算与全连接运算在动机上的差异性。

下列哪一项在神经网络中引入了非线性 $?(\quad)$

$\mathcal A \quad$ 随机梯度下降

$\mathcal B\quad$ 修正线性单元 $(\text{ReLU})$

$\mathcal C \quad$ 卷积函数

$\mathcal D \quad$ 以上都不正确

正确答案： $\mathcal B$

题目解析

$\mathcal A \quad$ 随机梯度下降 $(\text{Stochastic Gradient Descent,SGD})$ 是梯度下降法( $\text{Gradient Descent,GD}$ )系列的一种算法表达。

在梯度下降法的基础上，随机梯度下降的核心操作在于：每次算法迭代中的采样操作。

关于机器学习算法中的代价函数 $\mathcal J$ 可以分解成每个样本的损失函数总和：
已知数据集合 $\mathcal D = \{x^{(i)},y^{(i)}\}_{i=1}^N$ 并以此作为‘真实分布/真实模型’ $\mathcal P_{data}$ 的参考。在极大似然估计与最大后验概率估计中介绍过，真实模型是客观的，是无法准确得到的分布结果。因而 $\mathcal D$ 可理解为从真实分布 $\mathcal P_{data}$ 中采集出的样本组成的集合。
$\begin{aligned} \mathcal J(\theta) & = \mathbb E_{x^{(i)},y^{(i)} \in \mathcal P_{data}} \mathcal L(x^{(i)},y^{(i)};\theta) \\ & = \frac{1}{N} \sum_{i=1}^N \mathcal L(x^{(i)},y^{(i)};\theta) \end{aligned}$
其中， $\mathcal L$ 为损失函数，根据不同的处理任务，可使用不同的损失函数，这里不过多描述。基于梯度下降法，我们需要计算代价函数关于参数 $\theta$ 的梯度 $\nabla_\theta \mathcal J(\theta)$ ：
$\nabla_{\theta}\mathcal J(\theta) = \frac{1}{N} \sum_{i=1}^N \nabla_{\theta} \mathcal L(x^{(i)},y^{(i)};\theta)$