线性回归基本概念
- 什么是线性?
变量之间关系是一次函数,图像为一条直线。 - 什么是回归?
将变量之间的关系归结于一个值(直线)。 - 线性回归预测,通过样本特征的线性组合来进行预测的函数,即用多个变量X来预测Y。
- 特征之间是线性相关的。
- 基本形式:
f ( x ) = θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + . . . θ n x n + θ 0 f(x) = \theta_1x_{1}+\theta_2x_{2}+\theta_3x_{3}+...\theta_nx_{n}+\theta_0 f(x)=θ1x1+θ2x2+θ3x3+...θnxn+θ0
单变量线性回归
-
每一个样本只有1个特征。
-
假设我们找到了最佳拟合的直线方程: y = w x + b y = wx + b y=wx+b。
-
对于每一个样本点 x i x_{i} xi , 直线方程预测值为: y i = w x i + b y_{i} = wx_{i}+b yi=wxi+b , 此样本真值为 y i ^ \hat{y_{i}} yi^,我们希望 y i y_{i} yi与 y i ^ \hat{y_{i}} yi^的差距越小越好,怎么计算差距? 均方误差: ( y i ^ − y i ) 2 (\hat{y_{i}}-y_{i})^2 (yi^−yi)2.
-
对于训练样本集,考虑所有样本: ∑ i = 1 m ( y i ^ − y i ) 2 \sum_{i=1}^m(\hat{y_{i}}-y_{i})^2 ∑i=1m(yi^−yi)2, 通常还会再乘上一个 1 m {1}\over{m} m1。
-
目标:找到最佳的 w w w和 b b b ,使 ∑ i = 1 m ( y i ^ − w x i − b ) 2 \sum_{i=1}^m(\hat{y_{i}}- wx_{i}-b)^2 ∑i=1m(yi^−wxi−b)2 尽可能的小。此方程又称为损失函数 J ( w , b ) J(w,b) J(w,b)。
-
正规方程
- 正规方程解:
w = ∑ i = 1 m ( x i − x ~ ) ( y ^ i − y ~ ) ∑ i = 1 m ( x i − x ~ ) 2 w = { {\sum_{i=1}^m(x_{i}-\tilde{x})(\hat y_{i}-\tilde{y})} \over {\sum_{i=1}^m(x_{i}-\tilde{x})^2}} w=∑i=1m(xi−x~)