牛客网算法八股刷题系列——卷积函数、随机梯度下降、ReLU
题目描述
本节并不过多针对题目中的非线性,而更多关注随机梯度下降、卷积运算自身以及卷积运算与全连接运算在动机上的差异性。
下列哪一项在神经网络中引入了非线性 ? ( ) ?(\quad) ?()
A \mathcal A \quad A随机梯度下降
B \mathcal B\quad B修正线性单元 ( ReLU ) (\text{ReLU}) (ReLU)
C \mathcal C \quad C卷积函数
D \mathcal D \quad D以上都不正确
正确答案: B \mathcal B B
题目解析
A \mathcal A \quad A随机梯度下降 ( Stochastic Gradient Descent,SGD ) (\text{Stochastic Gradient Descent,SGD}) (Stochastic Gradient Descent,SGD)是梯度下降法( Gradient Descent,GD \text{Gradient Descent,GD} Gradient Descent,GD)系列的一种算法表达。
在梯度下降法的基础上,随机梯度下降的核心操作在于:每次算法迭代中的采样操作。
关于机器学习算法中的代价函数 J \mathcal J J可以分解成每个样本的损失函数总和:
已知数据集合
D = { x ( i ) , y ( i ) } i = 1 N \mathcal D = \{x^{(i)},y^{(i)}\}_{i=1}^N D={
x(i),y(i)}i=1N并以此作为‘真实分布/真实模型’
P d a t a \mathcal P_{data} Pdata的参考。在
极大似然估计与最大后验概率估计中介绍过,真实模型是客观的,是无法准确得到的分布结果。因而
D \mathcal D D可理解为从真实分布
P d a t a \mathcal P_{data} Pdata中采集出的样本组成的集合。
J ( θ ) = E x ( i ) , y ( i ) ∈ P d a t a L ( x ( i ) , y ( i ) ; θ ) = 1 N ∑ i = 1 N L ( x ( i ) , y ( i ) ; θ ) \begin{aligned} \mathcal J(\theta) & = \mathbb E_{x^{(i)},y^{(i)} \in \mathcal P_{data}} \mathcal L(x^{(i)},y^{(i)};\theta) \\ & = \frac{1}{N} \sum_{i=1}^N \mathcal L(x^{(i)},y^{(i)};\theta) \end{aligned} J(θ)=Ex(i),y(i)∈PdataL(x(i),y(i);θ)=N1i=1∑NL(x(i),y(i);θ)
其中, L \mathcal L L为损失函数,根据不同的处理任务,可使用不同的损失函数,这里不过多描述。基于梯度下降法,我们需要计算代价函数关于参数 θ \theta θ的梯度 ∇ θ J ( θ ) \nabla_\theta \mathcal J(\theta) ∇θJ(θ):
∇ θ J ( θ ) = 1 N ∑ i = 1 N ∇ θ L ( x ( i ) , y ( i ) ; θ ) \nabla_{\theta}\mathcal J(\theta) = \frac{1}{N} \sum_{i=1}^N \nabla_{\theta} \mathcal L(x^{(i)},y^{(i)};\theta) ∇θJ(θ)=N1