1:将数据集和测试集分开是为了提高模型的泛化能力。泛化能力是指未处理过的数据能力,获取模型的泛化能力是机器学习的目标,避免过拟合是机器学习的重要内容。
2: 神经网络所用的指标称为损失函数,损失函数可以使用任意函数,但是一般用均方误差和交叉熵的表示比较多。
3: mini-batch 学习;用随机选取的小批量数据作为全体训练数据的近似值。
4: 为什么要设置损失函数为指标,在微小参数变化的前提下, 因为准确率(Ac)的变化是不连续的,而损失函数的变化是连续的。激励函数的作用也很重要,需要像 竹筒倒石 一样,应该有反方,比如sigmoid 函数,阶跃函数就不是好的选择。
在进行神经网络学习时,不能讲识别精度作为指。因为如果以识别精度作为指标,则参数的导数在绝大多数的地方都会变为0.
5:导数的误差,f(x+h)-f(x-h) 的误差比f(x+h)-f(x) 的误差要小。
6: 全部变量的偏导数汇总而成的向量称为 梯度。梯度所指的方向是各点处的函数值较少最多的方向。通过梯度来寻找函数最小值的方法是梯度法。
7: 学习率 这种参数被称为超参数,因为神经网络的参数是通过训练得到的,就是学习率需要通过手工来调整。设置多个参数查看那个参数效果最好。
8:链式法则:
如果某个函数由复合函数表示,则该复合合函数的导数可以用构成复合函数的各个函数的倒数的乘积表示。
4: 深度学习,机器学习,算法的区别,