本周学习内容:线性回归 和 Softmax 回归;多层感知机、欠拟合和过拟合、Dropout、数值稳定性等。
目录
一、线性回归
回归:为一个或多个自变量与因变量之间关系建模的方法。回归常用来表示输入输出之间的关系。
线性回归基于几个简单的假设:首先,假设自变量x和因变量y之间的关系是线性的,即y可以表示为x中元素的加权和,这里通常允许包含观测值的一些噪声;其次,我们假设任何噪声都比较正常,如噪声遵循正态分布。
线性模型可以看作单层神经网络
损失函数:衡量预估质量,能够量化目标的实际值与预测值之间的差距。通常我们会选择非负数作为损失,且数值越小表示损失越小,完美预测时的损失为0。回归问题中最常用的损失函数是平方误差函数。当样本i的预测值为(i),其相应的真实标签为y(i)时,平方误差可以定义为:
常数不会带来本质的差别,但这样在形式上稍微简单一些,表现为当我们对损失函数求导后常数系数为1.
显式解(解析解):
像线性回归这样的简单问题存在解析解,但并不是所有的问题都存在解析解。解析解可以进行很好的数学分析,但解析解的限制很严格,导致它无法应用在深度学习里。
总结:
1.线性回归是对N维输入的加权,外加偏差
2.使用平方损失来衡量预测值和真实值的差异
3.线性回归有显式解
4.线性回归可以看作是单层神经网络
注:iterator:迭代器
二、基础优化方法
1.小批量随机梯度下降
梯度下降:通过不断地在损失函数递减的方向上更新参数来降低误差。
梯度下降最简单的用法是计算损失函数(数据集中所有样本的损失均值)关于模型参数的导数(在这里也可以称为梯度)。但实际中的执行可能很慢:因为在每一次更新参数之前,必须遍历整个数据集。因此,通常会在每次需要计算更新的时候随机抽取一小批样本,这种变体叫做小批量随机梯度下降。
在每次迭代中,随机抽样一个小批量B,由固定数量的训练样本组成。然后,我们计算小批量的平均损失关于模型参数的导数(也可以称为梯度)。最后,我们将梯度乘以一个预先确定的正数η,并从当前参数的值中减掉。
下面的数学公式表示这一更新过程(∂表示偏导数):