【线性回归】面向新手的基础知识

本文介绍了线性回归的基础知识,包括模型建立、损失函数、梯度下降法和最小二乘法的求解,以及带有正则化项的线性回归模型。此外,还探讨了回归任务的评价指标,如MAE、MSE、RMSE和决定系数(R2)。
摘要由CSDN通过智能技术生成

线性回归建模

首先考虑一个情景,假设我们希望用线性回归预测房屋的售价。一般网上公开的房价预测数据集都至少包含房屋的面积、厅室数量等特征以及房屋的售价:

面积( x 1 x_1 x1) 厅室数量( x 2 x_2 x2) 价格(万元)(y)
64 3 225
59 3 185
65 3 208
116 4 508
…… …… ……

对此数据,我们可以建立售价和特征属性之间的关系:
f ( x ) = w 0 + w 1 x 1 + w 2 x 2 f(x)=w_0+w_1x_1+w_2x_2 f(x)=w0+w1x1+w2x2
更一般的,假如我们有数据集:
{ ( x ( 1 ) , y ( 1 ) , ( ( x ( 2 ) , y ( 2 ) ) , . . . , ( ( x ( n ) , y ( n ) ) } x i = ( x 1 ; x 2 ; x 3 ; . . . ; x d ) , y i ∈ R \{(x^{(1)},y^{(1)},((x^{(2)},y^{(2)}),...,((x^{(n)},y^{(n)})\} \\ x_i = (x_{1};x_{2};x_{3};...;x_{d}),y_i\in R { (x(1),y(1),((x(2),y(2)),...,((x(n),y(n))}xi=(x1;x2;x3;...;xd),yiR
其中,n 表示样本的个数,d表示特征的个数。则y与样本x的特征之间的关系为:
f ( x ) = w 0 + w 1 x 1 + w 2 x 2 + . . . + w d x d = ∑ i = 0 d w i x i \begin{aligned} f(x) &= w_0 + w_1x_1 + w_2x_2 + ... + w_dx_d \\ &= \sum_{i=0}^{d}w_ix_i \\ \end{aligned} f(x)=w0+w1x1+w2x2+...+wdxd=i=0dwixi
其中,我们假设 x 0 x_0 x0=1,下文都作此假设。

线性回归损失函数、代价函数、目标函数

  1. 损失函数:度量单个样本的错误程度。常用的损失函数有:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。
  2. 代价函数:度量所有样本的平均错误程度,也就是所有样本损失函数的均值。常用的代价函数包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等。
  3. 目标函数:代价函数与正则化函数的结合,也是最终要优化的函数。

我们的目标是找到一组合适的w,使得 f ( x ) ≈ y f(x)\approx y f(x)y 。对于回归问题,有许多性能度量方法,其中常用的一个是均方误差(MSE),即:
J ( w ) = 1 2 ∑ j = 1 n ( f w ( x ( j ) ) − y ( j ) ) 2 J(w)=\frac{1}{2}\sum_{j=1}^{n}(f_{w}(x^{(j)})-y^{(j)})^2 J(w)=21j=1n(fw(x(j))y(j))2
我们称 J ( w ) J(w) J(w)为代价函数。注意到式子的系数不是1/n而是1/2,数是因为求导后的 J ′ ( w ) J'(w) J(w) 系数为1,方便后续计算。为什么均方误差可以作为性能度量?可以从极大似然估计(概率角度)入手。

为了能够能精确的表达特征和目标值y的关系,引入了误差项ϵ,表示模型受到的未观测到的因素的影响。于是我们可以假设:
y ( i ) = w T x ( i ) + ϵ ( i ) y^{(i)} = w^T x^{(i)}+\epsilon^{(i)} y(i)=wTx(i)+ϵ(i)
使用回归模型需要满足许多前提假设,其中一个是要求ϵ独立同分布,且服从 N ( 0 , σ 2 ) N(0, σ^2) N(0,σ2)的高斯分布(正态分布):
p ( ϵ ( i ) ) = 1 2 π σ e x p ( − ( ϵ ( i ) ) 2 2 σ 2 ) p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\right) p(ϵ(i))=2π σ1exp(2σ2(ϵ(i))2)
所以在给定w和x的前提下, y ( i ) y^{(i)} y(i) 服从 N ( w T x ( i ) , σ 2 ) N(w^T x^{(i)}, σ^2) N(wTx(i),σ2)的正态分布。
p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ e x p ( − ( y ( i ) − w T x ( i ) ) 2 2 σ 2 ) p(y^{(i)}|x^{(i)};w) = \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(y^{(i)}-w^T x^{(i)})^2}{2\sigma^2}\right) p(y(i)x(i);w)=2π σ1exp(2σ2(y(i)wTx(i))2)
现在我们已经知道$y^{(i)} $的分布,但是我们不知道他的参数 w T x ( i ) , σ 2 w^T x^{(i)}, σ^2 wTx(i),σ2 ,极大似然估计法来正是用来解决此类问题的,假设样本独立同分布,最大化似然函数,来进行参数估计。最大化似然函数的原理说简单点就是在一次观测中,发生了的事件其概率应该大。概率大的事在观测中容易发生,所以我们希望让每一个 p ( y ( i ) ∣ x ( i ) ; w ) p(y^{(i)}|x^{(i)};w) p(y(i)x(i);w)都最大化,这等效于他们的乘积最大化。于是不难得到似然函数:
L ( w ) = ∏ i = 1 n 1 2 π σ e x p ( − ( y ( i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值