误差平面: 以平方误差的线性神经元:二次的碗状(quadratic bowl) 多层非线性网络的误差曲面复杂得多,但是只要权重不是太大,仍然可用二次的碗状拟合局部。 两种学习算法: full gradient : 使用所有的数据计算梯度 mini-batch : 使用小批量学习(数据集最好很大,有很多冗余) 学习率: 猜测一个初始的学习率 写一个简单的程序来自动调整学习率