文章目录
一、线性回归
1.线性回归描述
是一种预测模型,利用各个特征的数值去预测目标值。线性回归的主要思想是给每一个特征分配一个权值,最终的预测结果是每个特征值与权值的乘机之和再加上偏置。所以训练的目标是找到各个特征的最佳权值和偏置,使得误差最小。线性回归的假设前提是噪声符合正态分布。线性回归也可以做分类,但是效果不好。
2.线性回归公式(正规方程求解)
2.1 一元回归公式推导
假设输入属性的数目只有一个
如何确定 w 和 b ?关键在于如何衡量f(x)与y之间的差别。我们可以让均方误差最小化,使每一个样本的预测值与真实值的差的平方和最小,即
对 w 和 b 分别求偏导,并令二者的偏导数为零
分别令二者等于0便可以得到 w和 b的最优解:
得出b的值为:
w的值求解过程:
带入b的值
最右的平方项移项到左边可得
得出w的值为
基于均方误差最小化来进行模型求解的方法称为”最小二乘法“。
详情:https://blog.csdn.net/wx_blue_pig/article/details/79779500
2.2 多元回归公式推导
更一般的情况,数据集D中的样本由 d 个属性描述
为便于讨论,我们把 w 和 b 吸收入向量形式 w^=( w; b),相应的,把数据集D表示为一个m*(d+1)大小的矩阵X(最后一个元素恒置为1)。
最小二乘法运用在一元线性回归上的情形,那么对于多元线性回归来说,我们可以类似得到
根据向量内积的定义可知,上式可以写成如下向量内积的形式
其中
所以
令 E w ^ E_{\hat w} Ew^= ( y − X w ^ ) T ({\it{y} - X\hat w})^T (y−Xw^)T ( y − X w ^ ) ({\it{y} - X\hat w}) (y−Xw^),对 w ^ \hat w w^求导得到
∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) \bf\frac{\partial E_{\hat w}}{\partial \hat w} = 2 X^T(X\hat w - y) ∂w^∂Ew^=2XT(Xw^−y)
此处推导涉及到矩阵运算和求导
[推导]:
将 E w ^ E_{\hat w} Ew^= ( y − X w ^ ) T ({\it{y} - X\hat w})^T (y−Xw^)T ( y − X w ^ ) ({\it{y} - X\hat w}) (y−Xw^)展开可得
E w ^ = y T y − y T X w ^ − w ^ T X T y + w ^ T X T X w ^ E_{\hat w}=y^Ty-y^TX\hat w-\hat w^TX^Ty+\hat w^TX^TX\hat w Ew^=yTy−yTXw^−w^TXTy+w^TXTXw^
对 w ^ \hat w w^求导可得
∂ E w ^ ∂ w ^ = ∂ y T y ∂ w ^ − ∂ y T X w ^ ∂ w ^ − ∂ w ^ T X T y ∂ w ^ + ∂ w ^ T X T X w ^ ∂ w ^ \frac{\partial E_{\hat w}}{\partial \hat w}=\frac{\partial y^Ty}{\partial\hat w}-\frac{\partial y^TX\hat w}{\partial\hat w}-\frac{\partial\hat w^TX^Ty}{\partial\hat w}+\frac{\partial\hat w^TX^TX\hat w}{\partial\hat w} ∂w^∂Ew^=∂w^∂yTy−∂w^∂yTXw^−∂w^∂w^TXTy+∂w^∂w^TXTXw^
由矩阵微积分公式 ∂ a T x ∂ x = ∂ x T a ∂ x = a \frac{\partial a^Tx}{\partial x}=\frac{\partial x^Ta}{\partial x}=a ∂x∂aTx=∂x∂xTa=a, ∂ x T A x ∂ x = ( A + A T ) x \frac{\partial x^TAx}{\partial x}=(A+A^T)x ∂x∂xTAx=(A+AT)x可得
∂ E w ^ ∂ w ^ = 0 − X T y − X T y + ( X T X + X T X ) w ^ \frac{\partial E_{\hat w}}{\partial \hat w}=0-X^Ty-X^Ty+(X^TX+X^TX)\hat w ∂w^∂Ew^=0−XTy−XTy+(XTX+XTX)w^ ∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) \frac{\partial E_{\hat w}}{\partial \hat w}=2X^T(X\hat w-y) ∂w^∂Ew^=2XT(Xw^−y)
令上式为零,可得 w ^ \hat w w^的最优解的闭式解。这里涉及矩阵逆的计算
当 X T X \bf X^TX XTX为满秩矩阵或正定矩阵时,可得 w ^ ∗ = ( X T X ) − 1 X T y , \bf\hat w^*=(X^TX)^{-1}X^Ty \quad , w^∗=(XTX)−1XTy,其中 ( X T X ) − 1 (X^TX)^{-1} (XTX)−1是矩阵 ( X T X ) (X^TX) (XTX)的逆矩阵。
令 x ^ i = ( x i ; 1 ) \hat x_i=(x_i;1) x^i=(xi;1),则最终学得的多元线性回归模型为 f ( x ^ i ) = w ^ T x ^ i = x ^ i T ( X T X ) − 1 X T y \bf f(\hat x_i)=\hat w^T\hat x_i=\hat x_i^T(X^TX)^{-1}X^Ty f(x^i)=w^Tx^i=x^iT(XTX)−1XTy
3.梯度下降法求解
梯度下降法详情:https://zhuanlan.zhihu.com/p/90462431
3.1 一元线性回归
假设函数: h θ ( x ) = θ 0 + θ 1 x h_\theta(x)=\theta_0+\theta_1x h