例子:基于广告数据理解线性回归模型
Advertising:sales(Y)、TV、radio、newspaper
- 销售额与广告预算之间是否有关系
- 相关性的强度
- 哪一种媒介对销售额的贡献最大
- 媒介对销售额影响估计的精确度
- 未来销售额预测的精确度
- 该关系是否是线性相关的
- 广告媒介是否有协同作用
简单的线性回归模型
定义线性回归模型:
Y≈β0+β1X
β0和β1称为总体参数
β^0和β^1 为模型参数,通过训练集学习产生
估计得回归方程:Y^=β^0+β^1X
参数估计
拟合方法:least squares fit
SSE=e21+e22+...+e2ne2i=(yi−y^i)2
目标:SSE(误差平方和)最小化
解:
β^1=∑n1(xi−x¯)(yi−y¯)∑n1(xi−x¯)β^0=y¯−β^1x¯
参数估计评价-模型的假定
确定假定的模型是否合理:要对变量之间的关系的显著性进行检验。
X和Y真正的关系为:
Y=f(X)+ϵ
.
f
是某个未知的函数,
1.
E(ϵ)=0
,意味着
β0;β1
都是常数
2. 对于所有的x值,
ϵ
的方差相同,用
σ2
表示
3.
ϵ
相对独立
4. 误差项
ϵ
是一个正态分布的随机变量
假设 ϵ 与X独立.评价总回归线与最小二乘线之间的差别.相当于标准统计学中利用样本预测总体的方法。样本均值与总体均值不同,但通常样本均值对总体均值提供了一个较好的估计。同理, β0和β1 在现实中是未知的,我们试图利用 β^0和β^1 来估计。
通过计算 β^0和β^1 的标准差来评价与真实参数的距离:
SE(β^0)2=σ2[1n+x¯2∑n1(xi−x¯)2]SE(β^1)2=σ2∑n1(xi−x¯)2σ2=Var(ϵ)
通常, σ2 是 ϵ 的方差,从回归模型和它的假设中可以得出结论: σ2 也是因变量y关于回归直线的方差,SSE是实际观测值关于估计得回归直线变异性的度量,用SSE除以它的自由度,得到均方误差。均方误差给出了 σ2 的一个估计量(每个平方和都有一个与之相关联的数,这个数叫做自由度,为了计算SSE,必须估计两个参数 β0;β1 ,所以SSE的自由度是n-2)s=MSE−−−−−√=SSE/(n−2)−−−−−−−−−−−√
MSE是均方误差,s为估计得标准误差
95%置信区间:[β^1−2SE(β^1),β^1+SE(β^1)]
通过 SE(β^1) 还能够进行假设检验,计算出p值和t值,进一步评估参数估计得准确性。t=β^1−0SE(β^1)
##评价模型的精确度
MSE
R2=SSRSST
R2 称为判定系数,理解为总平方和中能被估计得回归方程解释的百分比
SST=∑(yi−y¯)
TSS表示利用均值来估计所产生的离差平方和,称为总的平方和
SSR=∑(y^i−y¯)2
SSR 称为回归平方和,用于度量 y^和y¯ 之间的偏离程度
SST=SSR+SSE
利用三个平方和能够给出回归方程一个拟合优度的度量
###多元线性回归
Y≈β0+β1X1+...βnXn