1. 任何非输入输出层都被称为隐藏层。
2. 参数和权重是一种意思。
3. 从输入层到隐藏层,再到输出层叫做前向传播。
4. 神经网络算法优化代价函数的方法有反向传播算法。重新学习反向传播算法。
5. 为了训练神经网络,首先要将权重随机初始化一个接近0的,范围在-e到e之间的数,然后进行反向传播,再进行梯度检验,最后使用梯度下降,或者其他高级优化算法,来最小化代价函数J,这个关于参数theta的函数,整个过程从为参数选取一个随机初始化的值开始,这是一种打破对称性的流程,随后,通过梯度下降,或者其他高级优化算法,就能计算出参数theta的最优值。
6. 训练神经网络的过程:选择一个神经网络结构(输入单元是特征的维数,输出单元是要分的类别数,隐藏单元首选一层,如果选择多层,则每层的小单元个数最好一样)
构建一个神经网络,随机初始化权重 → 执行前向传播算法得到预测值 → 通过代码计算出代价函数 → 执行反向传播算法计算出偏导数项 → 使用梯度检测将已经计算出的偏导数项和用数值方法计算出的值进行比较,检测是否接近,再停用梯度检测 → 再用高级优化算法和反向传播算法结合最小化代价函数
7. 一般将数据集分为训练集,验证集和测试集,比例为60%,20%,20%,交叉验证集是为了评估泛化误差。
8. 欠拟合问题对应高偏差,训练误差也大,且偏差大于误差;过拟合问题对应高方差,训练误差较低。