《统计学》笔记：第11章一元线性回归

长行

已于 2023-04-24 08:47:08 修改

阅读量8.6k

点赞数 2

分类专栏：数据分析文章标签：统计学回归分析一元回归一元线性回归

于 2020-05-21 07:23:42 首次发布

本文链接：https://blog.csdn.net/Changxing_J/article/details/106248481

版权

数据分析同时被 2 个专栏收录

64 篇文章 5 订阅

订阅专栏

《统计学》笔记

13 篇文章 10 订阅

订阅专栏

变量之间的关系可以分为两种类型，即函数关系和相关关系。

函数关系 functional relationship

函数关系是一一对应的确定关系。设有两个变量x和y，变量y随变量x一起变化，并完全依赖于x，当变量x取某个数值时，y依确定的关系取相应的值，则称y是x的函数，其中x称为自变量，y称为因变量。

相关关系 correlation

由于影响一个变量的因素非常多，造成了变量之间关系的不确定性。变量之间存在的不确定的数量关系，称为相关关系。相关关系具有如下特点：一个变量的取值不能由另一个变量唯一确定，当变量x取某个值时，变量y的取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述，但也不是无任何规律可循。通过对大量数据的观察与研究，就会发现许多变量之间确实存在着一定的客观规律。

散点图 scatter diagram

对于两个bianliangx和y，通过观察或实验可以得到若干组数据，记为(xi,yi)(i=1,2,…,n)。用坐标的横轴代表变量x，纵轴代表变量y，每组数据(xi,yi)在坐标系中用一个点表示，n组数据在坐标系中形成的n个点称为散点，由坐标及其散点形成的二维数据图称为散点图。散点图是描述变量之间关系的一种直观方法，从中可以大体上看出变量之间的关系形态及关系强度。

相关系数 correlation coefficient

相关系数是根据样本数据计算的量度两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的，称为总体相关系数，记为ρ；若根据样本数据计算的，则称为样本相关系数，记为r。

线性相关系数 linear correlation coefficient / Pearson相关系数 Pearson’s correlation coefficient

使用样本相关系数的计算公式计算的相关系数即为线性相关系数【批：线性相关系数是双变量的相关系数，用以衡量两个变量之间的相关程度】，其公式为：
$r=\frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\cdot{\sqrt{n\sum{y^2}-(\sum{y})^2}}}$
回归分析 regression analysis

（相关分析的目的在于测量变量之间的关系强度，它所使用的测量工具就是相关系数。）回归分析侧重于考量变量之间的数量关系，并通过一定的数学表达式将这种关系描述出来，进而确定一个或几个变量（自变量）的变化对另一个特定变量（因变量）的影响程度。具体来说，回归分析主要解决以下几个方面的问题：

从一组样本数据出发，确定变量之间的数学关系式。
对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的，哪些是不显著的。
利用所求的关系式，根据一个或几个变量的取值来估计或预测两一个特定变量的取值，并给出这种估计或预测的可靠程度。

因变量 dependent variable

在回归分析中，被预测或被解释的变量称为因变量，用y表示。

自变量 independent variable

在回归分析中，用来预测或解释因变量的一个或多个变量称为自变量，用x表示。

回归模型 regression model

对于具有线性关系的两个变量，可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为：

y=β0+β1x+ε

上式称为理论回归模型，对这一模型，有以下几个主要假定：

因变量y与自变量x之间具有线性关系。【批：因为一元线性回归模型只能用来预测两个变量之间的线性相关关系】
在重复抽样中，自变量x的取值是固定的，即假定x是非随机的。【批：即任意给定的x值都是可以取到的；对于任意一个给定的x值，y的取值都对应着一个分布】
误差项ε是一个期望值为0的随机变量，即E(ε)=0。【批：如果ε的期望值不为0的话，则说明该回归模型不是无偏估计，即该模型存在偏差】
对于所有的x值，ε的方差σ^{2都相同。【批：这是模型的一个假定，在计算误差项ε的标准差σ的估计（估计标准误差）时，也是在依据假定的前提下计算的；当不同的x值对应的误差项ε的方差σ}2各不相同时，我们称之为非常数方差】
误差项ε是一个服从正态分布的随机变量，且独立，即ε~N(0,σ^2)。

回归方程 regression equation

根据回归模型中的假定，ε的期望值等于0，因此y的期望值E(y)=β0+β1x，也就是说，y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。一元线性回归方程的形式为：
$E(y)=\beta_0+\beta_1x$
一元线性回归方程的图示是一条直线，因此也称为直线回归方程。其中β0是回归直线在y轴上的截距，是当x=0时y的期望值；β1是直线的斜率，它表示x每变动一个单位时，y的平均变动值。

最小二乘法 / 最小平方法 method of least squares

高斯提出用最小化图中垂直方向的离差平方和来估计参数β0和β1，根据这一方法确定模型参数β0和β1的方法称为最小二乘法，它是通过使因变量的观测值yi与yi的估计值之间的离差平方和达到最小来估计β0和β1的方法。

统计学基础笔记：概念梳理11

拟合优度 goodness of fit

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。

判定系数 coefficient of determination

判定系数是对估计的回归方程拟合优度的度量，为回归平方和占总平方和的比例，记为R^2，其计算公式为：
$R^2=\frac{SSR}{SST}=\frac{\sum({\hat{y_i}-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum({y_i-\hat{y_i})^2}}{\sum{(y_i-\overline{y})^2}}$
估计标准误差 standard error of estimate

估计标准误差是衡量各实际观测点在直接周围的散布状况的一个统计量，它是均方残差(MSE)的平方根，用se来表示，其计算公式为：
$s_e=\sqrt{\frac{\sum{(y_i-\hat{y_i})^2}}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}$
预测 predict