一元回归分析

最新推荐文章于 2024-07-13 16:56:10 发布

Phoenix Studio

最新推荐文章于 2024-07-13 16:56:10 发布

阅读量1.8k

点赞数

文章标签：回归数据挖掘人工智能机器学习算法

本文链接：https://blog.csdn.net/weixin_41503009/article/details/112301229

版权

理论部分
给出样本数据
计算相应指标
可视化

理论部分

问题考察两个变量与之间是否存在线性相关关系,其中是一般 ( 可控) 变量, 是随机变量,其线性相关关系可表示如下 ( 可用散点图显示) :

其中为截距, 为斜率为随机误差,常假设这里是三个待估参数. 上式表明, 与之间有线性关系,但受到随机误差的干扰.

数据对与通过试验或观察可得对数据（注 : 数据是成对的,不允许错位). 在与之间存在线性关系的假设下,有如下统计模型：

各独立同分布其分布为

利用成对数据可获得与的估计,设估计分别为与则称为回归方程,其图形称为回归直线.

参数估计用最小二乘法可得与的无偏估计

其中此处表示下同

回归方程的显著性检验回占方程的显著性检验就是要对如下一对假设作出判断：

检验方法如下.

检验如下的平方和分解式是非常重要的,它在许多统计领域得到应用 :

其中是总平方和其自由度是回归平方和,其自由度是残差平方和,其自由度而是在的回归值(拟合值),它与实测值通常是不相等的. 在原假设成立的条件下,检验统计胃 ,拒绝域为

上述检验过程一般用如下方差分析表列出 :

估计与预测

当时是的点估计

当时的置信水平由的置信区间是其中

当时的预测区间是 ,其中

注是未知参数,而是随机变量. 对谈论的是置信区间,对谈论的是预测区间,两者是不同的,显然,预测区间要比置信区间宽很多. 要提高预测区间(置信区间也一样) 的精度,即要使或较小,这要求 : (1) 增大样本量增大即要求较为分散使靠近

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
%matplotlib inline

给出样本数据

x = np.array([15.3, 10.8, 8.1, 19.5, 7.2, 5.3, 9.3, 11.1, 7.5, 12.2,
                6.7, 5.2, 19.0, 15.1, 6.7, 8.6, 4.2, 10.3, 12.5, 16.1, 
                13.3, 4.9, 8.8, 9.5])
y = np.array([1.76, 1.34, 1.27, 1.47, 1.27, 1.49, 1.31, 1.09, 1.18, 
                1.22, 1.25, 1.19, 1.95, 1.28, 1.52, 1.5, 1.12, 1.37, 
                1.19, 1.05, 1.32, 1.03, 1.12, 1.70])

计算相应指标

n = len(x)   
Lxx = np.sum(x**2) - np.sum(x)**2/n
Lyy = np.sum(y**2) - np.sum(y)**2/n    
Lxy = np.sum(x*y) - np.sum(x)*np.sum(y)/n    
mean_x = np.mean(x)
mean_y = np.mean(y)

# 斜率和截距的最小二乘估计和MLE是一样的
b = Lxy/Lxx
a = mean_y - b*mean_x
fit = lambda xx: a + b*xx  

alpha = 0.05
# 残差
residuals = y - fit(x)
# MSE
var_res = np.sum(residuals**2)/(n-2)
sd_res = np.sqrt(var_res)

# 残差自由度
df = n-2     
# t值
tval = stats.t.isf(alpha/2., df)  

# 置信区间
se_fit     = lambda x: sd_res * np.sqrt(  1./n + (x-mean_x)**2/Lxx)
# 预测区间
se_predict = lambda x: sd_res * np.sqrt(1+1./n + (x-mean_x)**2/Lxx)

可视化

plt.figure()      
plt.plot(x, fit(x),'k', label='Regression line')
plt.plot(x,y,'k.')
        
x.sort()
# 置信度
limit = (1-alpha)*100

# 置信区间范围
plt.plot(x, fit(x)+tval*se_fit(x), 'r--', lw=2, label='Confidence limit ({}%)'.format(limit))
plt.plot(x, fit(x)-tval*se_fit(x), 'r--', lw=2 )
        
# 预测区间范围
plt.plot(x, fit(x)+tval*se_predict(x), 'b*-', lw=2,  label='Prediction limit ({}%)'.format(limit))
plt.plot(x, fit(x)-tval*se_predict(x), 'b*-', lw=2)

plt.xlabel('X values')
plt.ylabel('Y values')
plt.title('Linear regression and confidence limits')


plt.legend(loc=0)
plt.show()