分类与回归区别只在于样本标签。分类样本标签是离散值,回归样本标签则是连续值。例如:根据人脸的外貌特征(x)来预测男女性别(y),这里男女性别标签为离散值,该问题则为分类问题;根据父母身高(x)来预测孩子身高(y),这里孩子身高标签为连续值,该问题则为回归问题。
————————————————————————————————————————————
本篇介绍了最小二乘法实现线性回归的过程,推导过程参考了经典西瓜书
线性模型
线性模型即可以根据属性的线性组合来进行预测的模型。
模型描述:
其中x0至xn表示的是模型中的n个属性,w0至wn及b是可以通过样本求得的参数。第三个等式后是向量形式的线性模型表达式。
线性回归
线性回归的目标是学习一个线性模型,使得该线性模型可尽可能准确地根据属性来进行预测。
比较常用的学习方法是最小二乘法。最小二乘法实质就是样本在线性模型上实现均方误差最小化。
最小二乘法实现线性回归推导过程:
假如有m个样本
其中
xin表示第i个样本的n维特征/属性。
如果样本只有一个属性那么线性回归的目标就是:
w,b求解过程较简单不再详推。(令w,b偏导为0)
如果考虑样本有n维属性那么线性回归目标就是:
令
令
那么线性回归目标等价于求:
对上式求导得:
令上式为0,即
假如XTX正定or满轶,则
当XTX不是满轶矩阵时,说明
有多个解,那么最终选择哪个就看学习算法。
可以用正则项解决XTX不是满轶的情况,之后会具体推导。