详解线性回归Linear Regression
详解线性回归
基本形式
线性模型
线性回归 Linear Regression
通俗理解线性回归
线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。线性回归中最常见的就是房价的问题。一直存在很多房屋面积和房价的数据。
离散属性连续化
对离散属性,
若属性值存在“序”的关系,可通过连续化将其转化为连续值。如高度的高、中、低可转化为{1.0, 0.5, 0.0}
若属性值不存在序关系,连续化会不恰当,对后续距离计算造成误导。如瓜类的取值有黄瓜,南瓜,西瓜,就不可连续化。此时可通过one-hot编码:转化为(0,0,1)(0,1,0)(1,0,0)
学习策略
学习策略:极小化模型预测输出和真实值之间的差距(均方误差/平方损失)
均方误差的几何意义:对应了常用的欧氏距离。最小化均方误差,试图找到一条直线,让所有样本到直线上的欧氏距离之和最小。
求解方法:最小二乘法(称为线性回归模型的最小二乘参数估计)
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
当x只有1维时(w自然只有一维),对w和b求导,得到:
令偏导为0,化简得到:
最终结果:
多元线性回归
学习策略
对数线性回归 Log-Linear Regression
学习策略