数学建模|回归分析

最新推荐文章于 2024-07-17 21:24:38 发布

CODE_WangZIli

最新推荐文章于 2024-07-17 21:24:38 发布

阅读量6.9k

点赞数 5

分类专栏：数学建模文章标签：回归概率论机器学习数学建模

本文链接：https://blog.csdn.net/CODE_WangZIli/article/details/122823007

版权

数学建模专栏收录该内容

9 篇文章 7 订阅

订阅专栏

什么是回归分析

人们关心的因变量受自变量的关联性(非因果性)的影响，并且存在众多随机因素，难以用机理分析方法找出它们之间的关系；需要建立这些变量的数学模型，使得能够根据自变量的数值预测因变量的大小，或者解释因变量的变化。

换句话说：回归分析是一种类相关性分析，就是通过分析已知数据和其造成的影响，来预测未知数据造成的影响。

一般来说，回归分析的主要步骤：

收集一组包含因变量和自变量的数据选定因变量与自变量之间的模型，利用数据按照最小二乘准则计算模型中的系数；
利用统计分析方法对不同的模型进行比较，找出与数据拟合得最好的模型；
判断得到的模型是否适合于这组数据, 诊断有无不适合回归模型的异常数据；
利用模型对因变量作出预测或解释。

线性回归

一元线性回归

模型为：

$y_i=\beta_0+\beta_1 x_i+\varepsilon$

$i = 1, 2, 3, \cdot \cdot \cdot, n$
其中： $x$ 为自变量， $\beta_0$ , $\beta_1$ 为回归系数， $\varepsilon$ 是随机变量(影响 $y$ 的随机因素的总和)。
由于 $x,\beta$ 是非随机的，可以视作某个常数，故也可以理解为
$y_i\sim N(\beta_0+\beta_ix_i,\sigma^2)$
相当于正态总体的参数估计问题。

模型假设

独立：对于不同的 $x, y$ 相互独立
线性： $y$ 的期望是 $x$ 的线性函数
齐次：对于不同的 $x, y$ 的方差是常数
正态：对于给定的 $x, y$ 服从正态分布

$\varepsilon$ 是相互独立的、期望为 $0$ 、方差为 $\sigma^2$ ，正态分布的随机变量即： $\varepsilon \sim N(0,\sigma^2)$ , $\varepsilon$ 称为随机误差。

回归系数的最小二乘估计

将数据 $x_i,y_i$ 带入 $y_i=\beta_0+\beta_1 x_i+\varepsilon$ ，则对
$Q(\beta_0,\beta_1)=\sum_{i=1}^n\varepsilon_i^2=\sum_{i=1}^n[y_i-(\beta_0+\beta_1x_i)]^2$
随后对 $\beta_0,\beta_1$ 求偏导，得出：
$\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x}$

$\hat{\beta_1}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}$

$\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\\$

$\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i$

误差方差估计

残差：

$e_i=\hat{\varepsilon_i}=y_i-\hat{y_i}$

$Q=\sum_{i=1}^n e_i^2=\sum_{i=1}^n(y_i-\hat{y_2})^2$

则 $\sigma^2$ 的无偏估计：
$s^2=\sigma^2=\frac{Q}{n-2}$

$n-2\sim Q$ 的自由度=数据容量-模型中含有的参数个数
$s^2$ 剩余方差(样本方差)， $s$ 剩余标准差（样本标准差）

回归系数的区间估计和假设检验

在这里插入图片描述

模型的有效性检验

在这里插入图片描述

利用一元线性回归模型进行预测

在这里插入图片描述

Matlab实现

b=regress(y,X)
[b,bint,r,rint,s]=regress(y,X,alpha)

输入：

y:因变量（列向量）
X:1与自变量组成的矩阵
alpha：显著性水平（若无值，则设为0.05）

输出：

$b=(\hat{\beta_0},\hat{\beta_1})$
bint： $\beta_0,\beta_1$ 的置信区间
r:残差
rint:残差的置信区间
s:决定系数 $R^2$
$F$ 值， $F_{(1,n-2)}$ 分布的分位数 $F_{(1,n-2),1-\alpha}$ 大于 $F$ 值的概率 $p$ ，当 $p<\alpha$ 时，模型有效。

多元线性回归

标准方程

在这里插入图片描述

保证 $X^TX$ 可逆只需要保证 $X$ 满秩即可， $n > m$ 是因为观测y与变量x是有区别的，不然容易混淆。

误差方差估计

在这里插入图片描述

归回系数区间估计和假设检验

在这里插入图片描述

模型有效性检测

在这里插入图片描述

预测

在这里插入图片描述

例子

多元线性回归模型：已知某湖八年来湖水中COD浓度实测值(y)与影响因素湖区工业产值(x1)、总人口数(x2)、捕鱼量(x3)、降水量(x4)资料，建立污染物y的水质分析模型。

%输入数据
x1=[1.376, 1.375, 1.387, 1.401, 1.412, 1.428, 1.445, 1.477]
x2=[0.450, 0.475, 0.485, 0.500, 0.535, 0.545, 0.550, 0.575]
x3=[2.170 ,2.554, 2.676, 2.713, 2.823, 3.088, 3.122, 3.262]
x4=[0.8922, 1.1610 ,0.5346, 0.9589, 1.0239, 1.0499, 1.1065, 1.1387]
y=[5.19, 5.30, 5.60,5.82,6.00, 6.06,6.45, 6.95]


 x=[ones(8,1),x1' x2' x3' x4']
[b,bint,r,rint,stats] = regress(y',x)

运行结果：

取得其中的结果：

在这里插入图片描述

且

在这里插入图片描述

所以 $\hat{y}=bx_i$ , $R^2=0.9846,F=47.9654,p=0.0123$
通过查表可知， $R^2$ 代表决定系数（ $R$ 代表相关系数），它的值很接近与1，说明此方程是高度线性相关的；
(这里使用的是F检验)
$F$ 检验值为 $47.9654$ 远大于 ${F_{0.05}}(4,3) = 9.12$ ，可见，检验结果是显著的。