1.与简单线性回归区别(simple linear regression)
多元回归具有多个变量 x,简单回归只有一个自变量
2.多元回归模型
其中:β0,β1,β2…βp是参数,e为误差
3.多元回归方程
4.估计多元回归方程
一个样本被用来计算
β
0
,
β
1
,
β
2
.
.
.
β
p
β_0,β_1,β_2...β_p
β0,β1,β2...βp的点估计
b
0
,
b
1
,
b
2
.
.
.
b
p
b_0,b_1,b_2...b_p
b0,b1,b2...bp
5.估计流程(与简单线性回归类似)
如图所示,跟简单线性回归的流程基本类似,这里就不详絮了。
6.估计方法
目标:使 sum of squares 最小
运算与简单线性回归类似,涉及到线性代数和矩阵代数的运算
7.例子
一家快递公司送货:X1:运输里程;X2:运输次数;Y:总运输时间
想探究一下,总运输时间和运输里程与运输次数之间的关系
基本数据如下:
可以得到以下方程:
Time=b0+b1Miles+b2Deliveries
这里我们就不手动算出来了,直接用Python计算得出:
Time=-0.869+0.0611 Miles+0.923 Deliveries
8.描述参数含义
b0:平均每多运送一英里,运输时间延长0.0611小时
b1:平均每多一次运输,运输时间延长0.923小时
9.预测
如果一个运输任务是跑102英里,运输6次,预计要运输多少小时?
代入我们的公式;
Time=-0.869+0.0611102+0.9236=10.9(小时)
10.如果自变量中有分类型变量(categorical data),如何处理?
对于因变量y而言,它的值必须是数值型的;但是对于自变量x,我们既可以使用数值型也可以使用类别型数据,下篇文章再具体介绍一下怎样解决这种类型的数据
11.关于误差的分布
误差e是一个随机变量,均值为0;e的方差对于所有自变量来说相等,所有e的值是独立的,e满足正态分布,并且通过
β
0
+
β
1
x
1
+
β
2
x
2
+
.
.
.
+
β
p
x
p
β_0+β_1x_1+β_2x_2+...+β_px_p
β0+β1x1+β2x2+...+βpxp反映y的期望值
OK,基本信息就这些了