线性回归:
回归(regression)是指⼀类为⼀个或多个⾃变量与因变量之间关系建模的⽅法,经常⽤来表⽰输⼊和输出之间的关系。多处理带预测性质的任务。
假设:
⾸先,假设⾃变量 x 和因变量 y 之间的关系是线性的,即y可以表⽰为 x 中元素的加权和,通常允许包含观测值的⼀些噪声;
其次,假设任何噪声都⽐较正常,如噪声遵循正态分布。
对于特征集合 X ,预测值 ŷ ∈ R n 可以通过矩阵-向量乘法表⽰为:ŷ = Xw + b 。给定训练数据特征 X 和对应的已知标签 y ,⽬标是找到⼀组权重向量 w 和偏置 b。当给定从X的同分布中取样的新样本特征时,找到的权重向量和偏置能够使得新样本预测标签的误差尽可能小。
损失函数:
⽤模型拟合(fit)数据前,需要确定⼀个拟合程度的度量。损失函数能够量化⽬标的实际值与预测值之间的差距。通常选择⾮负数作为损失,且数值越小表⽰损失越小,完美预测时的损失为0。回归问题中最常⽤的损失函数是平⽅误差函数。当样本 i 的预测值为 ŷ (i) ,其相应的真实标签为
y (i) 时,公式: