在一个回归模型中,我们需要关注或预测的变量叫做因变量,我们选取的用来解释因变量变化的变量叫做自变量。
一元线性回归模型
y=w0+w1x+ε,其中w0,w1为回归系数,ε为随机误差项,假设ε~N(0,σ2),则随机变量y~N(w0+w1x,σ2)。
面对一个具体问题,给定样本集合D={(x1,y1),…,(xn.yn)},我们的目标是找到一条直线y=w0+w1x使得所有样本点尽可能落在它的附近。
数据模型为
(
w
0
^
,
w
1
^
)
=
a
r
g
m
i
n
(
w
0
^
,
w
1
^
)
∑
i
=
1
n
(
y
i
−
w
0
−
w
1
x
i
)
2
(\hat{w_{0}},\hat{w_{1}})=arg min_{(\hat{w_{0}},\hat{w_{1}})}\sum_{i=1}^{n}(y_{i}-w_{0}-w_{1}x_{i})^{2}
(w0^,w1^)=argmin(w0^,w1^)i=1∑n(yi−w0−w1xi)2
多元线性回归模型
y=w0x0+w1x1+w2x2+…+wdxd+ε
或
y=wTx+ε,其中x=(x1,x2,…,xd)为自变量,w=(w1,w2,…,wd)为回归系数。
假设将训练集中的输入特征部分记为n*d维矩阵X,矩阵第一列值全为1,训练数据的输出特征部分写成向量形式y=(y1,y2,…,yn)T。
在多元线性模型中,输入X对应的模型输出为
y
^
=
X
w
\hat{y}=Xw
y^=Xw
线性回归的问题
实际数据可能不是线性的
●使用R2等指标进行模型诊断,R2越接近1,证明模型拟合的越好。
多重共线性
●正则化、主成分回归、偏最小二乘回归
过度拟合问题
当模型的变量过多时,线性回归可能会出现过度拟合问题。假如在房价预测问题中,假设x表示房屋面积,如果将x2,x3等作为独立变量可能出现以下情况
简单线性回归通常对模型作了以下假设:
1.输入特征是非随机的且互相不相关;
2.随机误差具有零均值,同方差的特点,且彼此不相关;
3.输入特征与随机误差不相关;
4.随机误差项服从正态分布N(0, σ2 ).