概率论与数理统计教程(八)-方差分析与回归分析04:一元线性回归01

§ 8.4 一元线性回归
8.4.1 变量间的两类关系
早在 19 世纪, 英国生物学家兼统计学家高尔顿 (Galton)
在研究父与子身高的遗传问题时, 观察了 1078 对父与子, 用 x x x 表示父亲身高,
y y y 表示成年儿子的身高, 发现将 ( x , y ) (x, y) (x,y) 点在直角坐标系中, 这 1078
个点基本在一条直线附近, 并求出了该直线的方程 (单位: 英寸, 1 英寸
= 2.54   c m =2.54 \mathrm{~cm} =2.54 cm ) :
y ^ = 33.73 + 0.516 x . \hat{y}=33.73+0.516 x . y^=33.73+0.516x.
这表明:
- 父亲身高每增加 1 个单位,其儿子的身高平均增加 0.516 个单位.
-
高个子父辈生的儿子平均身高也高,但子辈的身高间的差距低于父辈间的身高差距
(为 0.516 倍).
这便是子代的平均高度有向中心回归的趋势,
使得一段时间内人的身高相对稳定.之后回归分析的思想渗透到了数理统计的其他分支中.
随着计算机的发展, 各种统计软件包的出现, 回归分析的应用就越来越广泛.
回归分析处理的是变量与变量间的关系. 变量间常见的关系有两类:
一类称为确定性关系: 这些变量间的关系是完全确定的, 可以用函数 y = f ( x ) y=f(x) y=f(x)
来表示, x x x (可以是向量) 给定后, y y y 的值就唯一确定了. 臂如正方形的面积
S S S 与边长 a a a 之间有关系 S = a 2 S=a^{2} S=a2, 电路中有欧姆定律 V = I R V=I R V=IR 等.
另一类称为相关关系: 变量间有关系, 但是不能用函数来表示. 譬如, 人的身高
x x x 与体重 y y y 两者间有相关关系,一般来讲,身高较高的人体重也较重,
但是同样身高的人的体重可以是不同的,
医学上就利用这两个变量间的相关关系,给出了一些经验公式来确定一个人是否过于"肥胖"或"瘦小";
人的脚掌的长度 x x x 与身高 y y y 两者间也有相关关系, 一般来讲,
脚掌较长的人身高也较高, 但是同样脚掌长度的人的身高可以是不同的,
早期公安机关在破案时, 常常根据罪犯留下的脚印来推测罪犯的身高.
变量间的相关关系不能用完全确定的函数形式表示,
但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务.
回归分析便是研究变量间相关关系的一门学科.
它通过对客观事物中变量的大量观察或试验获得的数据,
去寻找隐藏在数据背后的相关关系, 给出它们的表达形式一一回归函数的估计.
8.4.2一元线性回归模型
y y y x x x 间有相关关系, 称 x x x 为自变量 (预报变量), y y y 为因变量
(响应变量), 在知道 x x x 取值后, y y y 的取值并不是确定的, 它是一个随机变量,
因此有一个分布, 这个分布是在知道 x x x 的取值后 Y Y Y 的条件密度函数
p ( y ∣ x ) p(y \mid x) p(yx), 我们关心的是 y y y 的均值 E ( Y ∣ x ) E(Y \mid x) E(Yx), 它是 x x x
的函数, 这个函数是确定性的:
f ( x ) = E ( Y ∣ x ) = ∫ − ∞ ∞ y p ( y ∣ x ) d y . f(x)=E(Y \mid x)=\int_{-\infty}^{\infty} y p(y \mid x) \mathrm{d} y . f(x)=E(Yx)=yp(yx)dy.
这便是 y y y 关于 x x x 的回归函数一一条件期望,
也就是我们要寻找的相关关系的表达式.
以上的叙述是在 x x x y y y 均为随机变量场合进行的, 这是一类回归问题.
实际中还有第二类回归问题, 其自变量 x x x 是可控变量 (一般变量), 只有 y y y
是随机变量, 它们之间的相关关系可用下式表示:
y = f ( x ) + ε , y=f(x)+\varepsilon, y=f(x)+ε,
其中 ε \varepsilon ε 是随机误差, 一般假设
ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N\left(0, \sigma^{2}\right) εN(0,σ2). 由于 ε \varepsilon ε
的随机性, 导致 y y y 是随机变量. 本节主要研究第二类回归问题.
进行回归分析首先是回归函数形式的选择, 当只有一个自变量时,
通常可采用画散点图的方法进行选择, 具体见下例.
例 8.4.1 由专业知识知道, 合金钢的强度 y y y (单位: 1 0 7   P a 10^{7} \mathrm{~Pa} 107 Pa )
与合金钢中碳的含量 x x x (单位: % \% % ) 有关.
为了生产强度满足用户需要的合金钢,在冶炼时如何控制碳的含量?如果在冶炼过程中通过化验得知了碳的含量,
能否预测这炉合金钢的强度?
为解决这类问题就需要研究两个变量间的关系. 首先是收集数据,
我们把收集到的数据记为 ( x i , y i ) ( i = 1 , 2 , ⋯   , n ) \left(x_{i}, y_{i}\right)(i=1,2, \cdots, n) (xi,yi)(i=1,2,,n).
本例中, 我们收集到 12 组数据, 列于表8.4.1中.
表 8.4.1 合金钢强度 y y y 与碳含量 x x x 的数据
序号 x x x y y y 序号 x x x y y y


1     0.10   42.0    7     0.16   49.0
2     0.11   43.0    8     0.17   53.0
3     0.12   45.0    9     0.18   50.0
4     0.13   45.0    10    0.20   55.0
5     0.14   45.0    11    0.21   55.0
6     0.15   47.5    12    0.23   60.0

为找出两个变量间存在的回归函数的形式, 可以画一张图: 把每一数对
( x i , y i ) \left(x_{i}, y_{i}\right) (xi,yi) 看成直角坐标系中的一个点, 在图上画出 n n n
个点, 称这张图为散点图, 见图
8.4.1.外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传{width=“294px”}
图8.4.1 合金钢强度及碳含量的散点图
从散点图我们可以看出, 12 个点基本在一条直线附近,
这说明两个变量之间有一个线性相关关系, 若记 y y y 轴方向上的误差为
ε \varepsilon ε, 这个相关关系可以表示为
y = β 0 + β 1 x + ε . y=\beta_{0}+\beta_{1} x+\varepsilon . y=β0+β1x+ε.
这便是 y y y 关于 x x x 的一元线性回归的数据结构式. 这里总假定 x x x
为一般变量,是非随机变量, 其值是可以精确测量或严格控制的,
β 0 , β 1 \beta_{0}, \beta_{1} β0,β1 为未知参数, β 1 \beta_{1} β1 是直线的斜率, 它表示
x x x每增加一个单位 E ( y ) E(y) E(y) 的增加量. ε \varepsilon ε 是随机误差, 通常假定
E ( ε ) = 0 , Var ⁡ ( ε ) = σ 2 , E(\varepsilon)=0, \operatorname{Var}(\varepsilon)=\sigma^{2}, E(ε)=0,Var(ε)=σ2,
在对未知参数作区间估计或假设检验时, 还需要假定误差服从正态分布, 即
y ∼ N ( β 0 + β 1 x , σ 2 ) . y \sim N\left(\beta_{0}+\beta_{1} x, \sigma^{2}\right) . yN(β0+β1x,σ2).
显然,假定 (8.4.4) 比 (8.4.3) 要强.
由于 β 0 , β 1 \beta_{0}, \beta_{1} β0,β1 均未知, 需要我们从收集到的数据
( x i , y i ) ( i = 1 , 2 , ⋯   , n ) \left(x_{i}, y_{i}\right)(i=1,2, \cdots, n) (xi,yi)(i=1,2,,n) 出发进行估计.
在收集数据时, 我们一般要求观测独立地进行, 即假定
y 1 , y 2 , ⋯   , y n y_{1}, y_{2}, \cdots, y_{n} y1,y2,,yn 相互独立.
综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的统计模型
{ y i = β 0 + β 1 x i + ε i , i = 1 , 2 , ⋯   , n ,  各  ε i  独立同分布, 其分布为  N ( 0 , σ 2 ) . \left\{\begin{array}{l} y_{i}=\beta_{0}+\beta_{1} x_{i}+\varepsilon_{i}, \quad i=1,2, \cdots, n, \\ \text { 各 } \varepsilon_{i} \text { 独立同分布, 其分布为 } N\left(0, \sigma^{2}\right) . \end{array}\right. { yi=β0+β1xi+εi,i=1,2,,n,  εi 独立同分布其分布为 N(0,σ2).
由数据 ( x i , y i ) ( i = 1 , 2 , ⋯   , n ) \left(x_{i}, y_{i}\right)(i=1,2, \cdots, n) (xi,yi)(i=1,2,,n) 可以获得
β 0 , β 1 \beta_{0}, \beta_{1} β0,β1 的估计 β ^ 0 , β ^ 1 \hat{\beta}_{0}, \hat{\beta}_{1} β^0,β^1, 称
y ^ = β ^ 0 + β ^ 1 x \hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x y^=β^0+β^1x
y y y 关于 x x x 的经验回归函数,简称为回归方程,其图形称为回归直线. 给定
x = x 0 x=x_{0} x=x0 后,称 y ^ 0 = β ^ 0 + β ^ 1 x 0 \hat{y}_{0}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{0} y^0=β^0+β^1x0
为回归值 (在不同场合也称其为拟合值、预测值).
8.4.3 回归系数的最小二乘估计
一般采用最小二乘方法估计模型 (8.4.5) 中的 β 0

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值