应用回归分析

最新推荐文章于 2023-05-07 19:38:49 发布

VV~

最新推荐文章于 2023-05-07 19:38:49 发布

阅读量1.1k

点赞数 4

本文链接：https://blog.csdn.net/weixin_42302446/article/details/100770444

版权

几个问题

线性回归模型的思想和基本假设是什么？
线性回归模型的估计与检验问题？模型中参数的估计和性质（检验）
模型假设不符合时该如何处理？换模型换假定还是换指标设计？
如何利用回归分析方法解决实际问题？

章节目录

回归分析概述
一元线性回归
多元线性回归（从第二章到第三章很多结论可以平推）
违背基本假定的情况（上面说的第三个问题）
自变量选择和逐步回归（模型选择）
多重共线性的情形及其处理
岭回归
非线性回归（不是重点——书里还是退化到线性来解决，比较简单）
含定性变量的回归模型（分类变量的处理）

考核方式

作业 30%
课堂表现 10%
闭卷考试 60%——选择题的部分（不定项选择40分）
大作业（MSE）——预测书的价格

第一章回归分析概述

变量间的统计关系

先了解一下函数关系：确定的映射关系
需要研究的统计关系是相关关系——有一定关系但是不完全确定
用回归的方法研究变量之间的相关关系，回归分析和相关分析不一样
- x与y的地位在回归中不同（分因变量和自变量——解释变量和被解释变量），在相关关系中不考虑差异（用相关系数衡量）
- 随机变量与非随机变量：在相关分析里面两个变量都必须是随机变量，在回归中认为x是非随机的（应该是随机的，但是为了简化问题说是随机的）
- 研究的目的与作用：回归主要的目的是解释结构和做预测，相关分析就是看相关性

回归方程与回归名称的由来

两个变量是有相关性的，一般来讲期望中二者的相关性比较高
回归是由Galton和Pearson研究父母身高及其子女身高遗传问题的时候，发现有归回的现象，系数是0.5哇

回归分析的主要内容及其一般模型

主要内容：通过建立统计模型研究
- 通过x去预测y是回归最核心的东西
- 什么是y的最佳预测？
  我们企图用 $g (x)$ 去预测y，取 $g (x) = E [Y ∣ X]$ 时， $E(Y-g(x))^2$ 最小
  $f(x)=E[Y|X]=\beta_0+\beta_1x$ 回归函数取线性的形式，所以叫线性回归
- 什么是y的最佳线性预测？

$E(Y-g(x))^2=E(Y-E[Y|X]+E[Y|X]-g(x))^2$
$E(Y-E[Y|X])^2+E(E[Y|X]-g(x))^2$
$+ 2 E (Y - E [Y ∣ X]) (E [Y ∣ X] - g (x))$
根据条件期望公式 $E (E [Y ∣ X]) = E (Y)$ ，发现 $E (Y - E [Y ∣ X]) (E [Y ∣ X] - g (x)) = 0$

一般形式： $f(x_1,x_2,...,x_p)+\epsilon$
- y——被解释变量（因变量）
- $x_i$ ——解释变量（自变量）
- $\epsilon$ ——随机误差项
线性回归模型： $y=\beta_0+\beta_1 x_1+...+\beta_p x_p + \epsilon$
- 线性模型指的是 $\beta_i$ 是线性的，不要求 $x_i$ 是线性的，比如 $y=\beta_0+\beta_1 x_1^2+...+\beta_p x_p^p + \epsilon$ 也是线性的（可替换）
- 基本假设
  - 解释变量 $x_1,x_2,...$ 是非随机变量，观测值 $x_{i1},...x_{ip}$ 是常数（希望从平均意义上看，E(Y|X)=E(Y)，因为x是常数）
  - Gauss-Markov假定：等方差及不相关假定（最小二乘法——最佳线性无偏估计——的条件）
    - $E\epsilon=0$
    - $cov(\epsilon_i,\epsilon_j)=0$
    - $Var(\epsilon_i)=\sigma^2$ ——这个 $\sigma^2$ 同时反映了Y的方差（因为X是非随机的）
  - 正态分布的假定： $\epsilon_i N(0,\sigma^2)$
  - $n > p$ ：样本量比待估参数要多

把x看作随机变量
$E[\epsilon|X]=E(Y-f(x)|X)=E[Y|X]-f(x)=f(x)-f(x)=0$

对于线性回归模型通常要研究的问题
- 根据样本求出 $\beta_0,\beta_1,...,\beta_p,\sigma^2$ 的估计
- 对回归方程以及回归系数的种种假设进行检验
- 根据回归方程进行预测和控制，以及进行实际问题的结构分析

建立实际问题回归模型的过程（见书）

第二章一元线性回归

一元线性回归模型

$\beta_0+\beta_1 x+\epsilon$ 不是一个完整模型，完整模型要带假定条件，比如上面写的G-M条件，代入样本之后有 $y_i = \beta_0+\beta_1 x_i+\epsilon_i$ ——最好用矩阵的形式表示
回归系数作何解释？
- $\beta_0$ 表示 $E[Y|X_i=0]$
- $\beta_1$ 表示 $E[Y|X_1=x+1]-E[Y|X_1=x]$ ，随着x的增加， $E [Y]$ 的单位增量（一元的回归模型）
- $\beta_i$ 表示 $E[Y|X_i=x+1]-E[Y|X_i=x]$ ，随着 $x_i$ 的增加， $E [Y]$ 的单位增量（其他因素不变——因为往往因素之间有相关关系）——类似偏导