主要需要了解的东西如下:
- 交叉熵损失和对数损失的区别
- SGD,bach,minibatch。主要是讲SGD随机梯度下降计算单个样本的梯度,bach基于整个样本计算梯度,minibatch在它们两者之间,这个主要体现在loss function上,单个样本计算梯度的loss function就没有对整个样本求和,而很多样本一起计算梯度,就要知道对每个样本的loss然后求和。
- sigmoid函数及其导数。
σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e^{-x}} σ(x)=1+e−x1
∂ σ ( x ) ∂ x = σ ( x ) ∗ ( 1 − σ ( x ) ) \frac{\partial\sigma(x)}{\partial x} = \sigma(x)*(1-\sigma(x)) ∂x∂σ(x)=σ(x)∗(1−σ(x)) - 反向传播推导
- 在保证模型正确率的前提下,通常希望学习到的权值矩阵中的元素都不要太大,以防止输入有噪声时,由于权重过大使得噪声对模型的影响过大。