- 激活函数----将输入信号的总和转换为输出信号的函数,称为激活函数,其作用在于决定如何来激活输入信号的总和。
- 神经网络的激活函数必须要使用非线性函数。若为线性,这加深神经网络的层数就没意义了。
- 输出层的激活函数,一般来说:回归类----恒等函数;二元分类----sigmod函数;多元分类----softmax函数。
- softmax函数的输出实在0到1之间的实数,输出总和为1.softmax输出可以解释为“概率”。
- 几时使用了softmax函数,各元素之间的大小关系也不会变。
- 损失函数是表示神经网络性能的“恶劣程度”的指标,乘上一个负值可以理解为“在多大的程度上不坏”。
- 损失函数常用的两个:均方误差(mean squared error)和 交叉熵误差(cross entropy error)。
- 设置损失函数的原因:在神经网络的学习中,寻找最优参数时,要寻找使损失函数的值尽可能小的参数,为了找到使损失函数尽可能小的地方,需要计算参数的梯度,然后以这个梯度为指引,逐步更新参数的值。
- 梯度表示的是各点的函数值减少最多的方向,但无法保证梯度所指向的方向就是函数的最小值或者真正应该前进的方向。
- 学习率(learning rate)决定一次学习中应该学习多少,该参数不能设置过大也不能设置过小。
- SGD的优点在于容易实现,而缺点在于效率低下。
- 过拟合(overfit)指的是只能拟合训练数据,但不能很好的拟合不包含在训练数据中的其他数据的状态。
- 权值衰减(weight decay)是一直以来用来抑制过拟合的方法。该方法通过在学习过程中对大的权重进行惩罚,来抑制过拟合。如在损失函数加上权重的L2范数。
- Dropout是一种在学习过程中随机删除神经元的方法。训练时,随机选出隐藏层的神经元,然后将其删除,被删除的神经元不在进行信号传递。
- 集成学习就是让多个模型单独进行学习,推理时再取出多个模型的输出的平均值。进行集成学习,神经网络的识别精度可以提高好几个百分点。
这是我在入门书上摘抄下来的笔记,再从笔记里挑些需要清楚的概念。如果你们看完觉得还有些比较重要的概念,希望能在评论留下,互相学习。