几个问题
- 线性回归模型的思想和基本假设是什么?
- 线性回归模型的估计与检验问题?模型中参数的估计和性质(检验)
- 模型假设不符合时该如何处理?换模型换假定还是换指标设计?
- 如何利用回归分析方法解决实际问题?
章节目录
- 回归分析概述
- 一元线性回归
- 多元线性回归(从第二章到第三章很多结论可以平推)
- 违背基本假定的情况(上面说的第三个问题)
- 自变量选择和逐步回归(模型选择)
- 多重共线性的情形及其处理
- 岭回归
- 非线性回归(不是重点——书里还是退化到线性来解决,比较简单)
- 含定性变量的回归模型(分类变量的处理)
考核方式
- 作业 30%
- 课堂表现 10%
- 闭卷考试 60%——选择题的部分(不定项选择40分)
- 大作业(MSE)——预测书的价格
第一章 回归分析概述
变量间的统计关系
- 先了解一下函数关系:确定的映射关系
- 需要研究的统计关系是相关关系——有一定关系但是不完全确定
- 用回归的方法研究变量之间的相关关系,回归分析和相关分析不一样
- x与y的地位在回归中不同(分因变量和自变量——解释变量和被解释变量),在相关关系中不考虑差异(用相关系数衡量)
- 随机变量与非随机变量:在相关分析里面两个变量都必须是随机变量,在回归中认为x是非随机的(应该是随机的,但是为了简化问题说是随机的)
- 研究的目的与作用:回归主要的目的是解释结构和做预测,相关分析就是看相关性
回归方程与回归名称的由来
两个变量是有相关性的,一般来讲期望中二者的相关性比较高
回归是由Galton和Pearson研究父母身高及其子女身高遗传问题的时候,发现有归回的现象,系数是0.5哇
回归分析的主要内容及其一般模型
- 主要内容:通过建立统计模型研究
- 通过x去预测y是回归最核心的东西
- 什么是y的最佳预测?
我们企图用 g ( x ) g(x) g(x)去预测y,取 g ( x ) = E [ Y ∣ X ] g(x)=E[Y|X] g(x)=E[Y∣X]时, E ( Y − g ( x ) ) 2 E(Y-g(x))^2 E(Y−g(x))2最小
f ( x ) = E [ Y ∣ X ] = β 0 + β 1 x f(x)=E[Y|X]=\beta_0+\beta_1x f(x)=E[Y∣X]=β0+β1x回归函数取线性的形式,所以叫线性回归 - 什么是y的最佳线性预测?
E ( Y − g ( x ) ) 2 = E ( Y − E [ Y ∣ X ] + E [ Y ∣ X ] − g ( x ) ) 2 E(Y-g(x))^2=E(Y-E[Y|X]+E[Y|X]-g(x))^2 E(Y−g(x))2=E(Y−E[Y∣X]+E[Y∣X]−g(x))2
= E ( Y − E [ Y ∣ X ] ) 2 + E ( E [ Y ∣ X ] − g ( x ) ) 2 =E(Y-E[Y|X])^2+E(E[Y|X]-g(x))^2 =E(Y−E[Y∣X])2+E(E[Y∣X]−g(x))2
+ 2 E ( Y − E [ Y ∣ X ] ) ( E [ Y ∣ X ] − g ( x ) ) +2E(Y-E[Y|X])(E[Y|X]-g(x)) +2E(Y−E[Y∣X])(E[Y∣X]−g(x))
根据条件期望公式 E ( E [ Y ∣ X ] ) = E ( Y ) E(E[Y|X])=E(Y) E(E[Y∣X])=E(Y),发现 E ( Y − E [ Y ∣ X ] ) ( E [ Y ∣ X ] − g ( x ) ) = 0 E(Y-E[Y|X])(E[Y|X]-g(x))=0 E(Y−E[Y∣X])(E[Y∣X]−g(x))=0
- 一般形式:
y
=
f
(
x
1
,
x
2
,
.
.
.
,
x
p
)
+
ϵ
y = f(x_1,x_2,...,x_p)+\epsilon
y=f(x1,x2,...,xp)+ϵ
- y——被解释变量(因变量)
- x i x_i xi——解释变量(自变量)
- ϵ \epsilon ϵ——随机误差项
- 线性回归模型:
y
=
β
0
+
β
1
x
1
+
.
.
.
+
β
p
x
p
+
ϵ
y=\beta_0+\beta_1 x_1+...+\beta_p x_p + \epsilon
y=β0+β1x1+...+βpxp+ϵ
- 线性模型指的是 β i \beta_i βi是线性的,不要求 x i x_i xi是线性的,比如 y = β 0 + β 1 x 1 2 + . . . + β p x p p + ϵ y=\beta_0+\beta_1 x_1^2+...+\beta_p x_p^p + \epsilon y=β0+β1x12+...+βpxpp+ϵ也是线性的(可替换)
- 基本假设
- 解释变量 x 1 , x 2 , . . . x_1,x_2,... x1,x2,...是非随机变量,观测值 x i 1 , . . . x i p x_{i1},...x_{ip} xi1,...xip是常数(希望从平均意义上看,E(Y|X)=E(Y),因为x是常数)
- Gauss-Markov假定:等方差及不相关假定(最小二乘法——最佳线性无偏估计——的条件)
- E ϵ = 0 E\epsilon=0 Eϵ=0
- c o v ( ϵ i , ϵ j ) = 0 cov(\epsilon_i,\epsilon_j)=0 cov(ϵi,ϵj)=0
- V a r ( ϵ i ) = σ 2 Var(\epsilon_i)=\sigma^2 Var(ϵi)=σ2——这个 σ 2 \sigma^2 σ2同时反映了Y的方差(因为X是非随机的)
- 正态分布的假定: ϵ i N ( 0 , σ 2 ) \epsilon_i N(0,\sigma^2) ϵiN(0,σ2)
- n > p n>p n>p:样本量比待估参数要多
把x看作随机变量
E [ ϵ ∣ X ] = E ( Y − f ( x ) ∣ X ) = E [ Y ∣ X ] − f ( x ) = f ( x ) − f ( x ) = 0 E[\epsilon|X]=E(Y-f(x)|X)=E[Y|X]-f(x)=f(x)-f(x)=0 E[ϵ∣X]=E(Y−f(x)∣X)=E[Y∣X]−f(x)=f(x)−f(x)=0
- 对于线性回归模型通常要研究的问题
- 根据样本求出 β 0 , β 1 , . . . , β p , σ 2 \beta_0,\beta_1,...,\beta_p,\sigma^2 β0,β1,...,βp,σ2的估计
- 对回归方程以及回归系数的种种假设进行检验
- 根据回归方程进行预测和控制,以及进行实际问题的结构分析
建立实际问题回归模型的过程(见书)
第二章 一元线性回归
一元线性回归模型
- y = β 0 + β 1 x + ϵ y = \beta_0+\beta_1 x+\epsilon y=β0+β1x+ϵ 不是一个完整模型,完整模型要带假定条件,比如上面写的G-M条件,代入样本之后有 y i = β 0 + β 1 x i + ϵ i y_i = \beta_0+\beta_1 x_i+\epsilon_i yi=β0+β1xi+ϵi——最好用矩阵的形式表示
- 回归系数作何解释?
- β 0 \beta_0 β0表示 E [ Y ∣ X i = 0 ] E[Y|X_i=0] E[Y∣Xi=0]
- β 1 \beta_1 β1表示 E [ Y ∣ X 1 = x + 1 ] − E [ Y ∣ X 1 = x ] E[Y|X_1=x+1]-E[Y|X_1=x] E[Y∣X1=x+1]−E[Y∣X1=x],随着x的增加, E [ Y ] E[Y] E[Y]的单位增量(一元的回归模型)
- β i \beta_i βi表示 E [ Y ∣ X i = x + 1 ] − E [ Y ∣ X i = x ] E[Y|X_i=x+1]-E[Y|X_i=x] E[Y∣Xi=x+1]−E[Y∣Xi=x],随着 x i x_i xi的增加, E [ Y ] E[Y] E[Y]的单位增量(其他因素不变——因为往往因素之间有相关关系)——类似偏导
注意x是不是随机的,决定要不要加条件
- 得到经验回归方程 y ^ = β 0 ^ + β 1 ^ x \hat y = \hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x
- y ∣ x y|_x y∣x服从 N ( β 0 + β 1 x , σ 2 ) N(\beta_0+\beta_1x,\sigma^2) N(β0+β1x,σ2)