Python 求回归方程及显著性分析

最新推荐文章于 2024-05-03 17:14:14 发布

哈哈哈#

最新推荐文章于 2024-05-03 17:14:14 发布

阅读量1.2k

点赞数 16

文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_71710015/article/details/136917829

版权

文章介绍了如何使用Python和numpy进行汽车试验数据的线性回归分析，包括计算均值、估计回归方程、计算F统计量进行显著性检验，并通过实例展示了如何确定线性回归方程的显著性。

摘要由CSDN通过智能技术生成

汽车试验学

x	1	3	8	10	13	15	17	20
y	7.5	10.1	14.8	17.5	20.2	22.4	25.1	27.6

( $\alpha$ =0.05)

步骤：

将数据转换为Python列表
使用numpy计算x和y的均值
计算线性回归方程的系数
计算残差平方和
计算总平方和
计算F统计量
进行显著性检验

import matplotlib.pyplot as plt  # 加载 matplotlib 库
import numpy as np
from scipy import stats

# 输入数据
x = [1, 3, 8, 10, 13, 15, 17, 20]
y = [7.5, 10.1, 14.8, 17.5, 20.2, 22.4, 25.1, 27.6]

# 计算x和y的均值
x_mean = np.mean(x)  # 10.875
y_mean = np.mean(y)  # 18.15

# 计算线性回归方程的系数
Lxx = sum([(x[i] - x_mean) ** 2 for i in range(len(x))])  
Lxy = sum([(x[i] - x_mean) * (y[i] - y_mean) for i in range(len(x))]) 

b = Lxy / Lxx   # 0.94   #  y = a + b*x
a = y_mean - b * x_mean  #  y = 6.63 + 1.06*x   6.625211097708082  1.0597507036590268

n = np.linspace(-1, 22, 50)  # 取一个与x差不多的区间绘制近似线， 将区间分为50个点
y1 = 1.06*n + 6.63

# 计算残差平方和 Qy  
Qy = sum([(y[i] - (a + b * x[i])) ** 2 for i in range(len(x))])
# 计算回归总平方和  Qz 
Qz = sum([(y[i] - y_mean) ** 2 for i in range(len(y))])
#  Qy = Qz - U , U = Qz - Qy
U = Qz - Qy
# 计算F统计量
fu = 1  # dfn
fqy = len(x) - 2   # dfd  (n-2)
F = U/Qy * (fqy / fu)

# 进行显著性检验
p_value = stats.f.sf(F, fu, fqy)  # 通过输入F统计量的值、分子自由度和分母自由度，可以得到相应的p值
# stats.f.sf(f_value, dfn, dfd)来计算，其中f_value是F统计量的值，dfn是分子自由度，dfd是分母自由度。
# 零假设（null hypothesis）通常表示为没有效应或没有差异的情况，即实验组和对照组之间不存在显著差异
# 如果p值小于或等于显著性水平（例如0.05），则拒绝零假设，认为数据提供了足够的证据表明效应是显著的。
# 如果p值大于显著性水平，则不能拒绝零假设，认为没有足够的证据表明效应是显著的。
alpha = 0.05
print(p_value)  # 1.6197336594605783e-09
if p_value < alpha:
    print("拒绝零假设，线性回归方程显著")  # 即实验组和对照组之间存在显著差异,回归显著
else:
    print("接收零假设，线性回归方程不显著")

# 输出线性回归方程
print("线性回归方程为：y = {:.2f}x + {:.2f}".format(b, a))

plt.plot(x, y, '*', label="原始数据点")  # 原始数据点
plt.plot(n, y1, label="回归方程线")  # 近似线数据点

plt.show()  # 画出

运行效果

回归方程显著

1.stats.f.sf

stats.f.sf` 是scipy库中stats模块的一个函数，用于计算F分布的生存函数值。

生存函数（survival function），也称为可靠性函数，是概率论中的一个概念，表示随机变量大于某个值的概率。在统计学中，特别是在假设检验中，生存函数用于计算p值，以确定观察到的数据与零假设之间的不一致程度。

具体到stats.f.sf`，它是F分布的生存函数，用于计算F分布的右尾概率。这在F检验中非常有用，因为F检验通常涉及到比较两个方差的比例，并判断这个比例是否显著地不同于1，即判断是否存在显著的方差差异。

在实际应用中，stats.f.sf`可以用于：

- **计算p值**：通过输入F统计量的值、分子自由度和分母自由度，可以得到相应的p值，从而判断统计显著性。
- **进行单侧检验**：如果是单侧检验，可以直接使用`stats.f.sf`得到相应的概率值。
- **进行双侧检验**：如果是双侧检验，通常需要将`stats.f.sf`计算出的值乘以2，或者使用其他方法来计算双尾概率。

此外，stats.f.sf`的使用非常方便，可以通过调用`scipy.stats.f.sf(f_value, dfn, dfd)`来计算，其中f_value`是F统计量的值，`dfn`是分子自由度，`dfd`是分母自由度。

stats.f.sf`是用于计算F分布生存函数的函数，它在假设检验中用于评估F统计量对应的p值，可以帮助判断数据中的方差是否具有统计学上的显著性差异。

2.如何计算p值？

在统计学中，p值（probability value）是用于在统计假设检验中量化观测数据与零假设之间不一致程度的一个指标。计算p值通常涉及以下步骤：

确定适当的统计检验：根据数据类型、分布特性和研究设计选择适当的统计检验方法，如t检验、卡方检验、F检验等。
收集数据并计算统计量：收集样本数据并进行必要的预处理后，使用选定的统计检验方法计算出相应的统计量，例如t值、卡方值或F值。
确定自由度：对于某些检验，需要确定自由度（degrees of freedom），它通常是由样本大小决定的。
计算p值：使用统计量和自由度，通过查表或使用统计软件来计算p值。p值表示在零假设为真的情况下，观察到当前统计量或更极端情况的概率。
做出决策：将计算得到的p值与预先设定的显著性水平（alpha，通常取0.05或0.01）进行比较，以决定是否拒绝零假设。

3. 拒绝零假设

拒绝零假设意味着基于样本数据分析，有足够的证据认为零假设不成立。在统计假设检验中，零假设（null hypothesis）通常表示为没有效应或没有差异的情况，即实验组和对照组之间不存在显著差异。当研究者通过收集数据并进行统计分析后，如果发现数据中的模式与零假设所预期的模式不一致，并且这种不一致的概率（p值）低于事先设定的显著性水平（alpha），那么研究者可能会决定拒绝零假设。

以下是对拒绝零假设的更详细解释：

统计显著性：拒绝零假设通常意味着实验结果具有统计显著性，即观察到的效应或差异不太可能仅仅是由随机因素引起的。
I类错误：在拒绝零假设的过程中，存在犯第I类错误（type I error）的风险，也就是错误地拒绝了一个实际上是正确的零假设。这个错误的概率等于显著性水平（alpha）。
参数估计：在回归分析等参数估计方法中，拒绝零假设可能意味着模型中的参数估计值与某个特定值有显著差异，或者参数之间存在显著的关系。
决策依据：拒绝零假设是基于样本数据提供的证据，而不是因为零假设绝对错误。这是一个概率性的决策过程，而不是绝对的结论。
后续研究：拒绝零假设后，研究者可能会进行更多的研究来进一步验证结果，或者探索导致这一结果的原因。
理论意义：在实际应用中，拒绝零假设可能对理论研究或实践应用具有重要意义，因为它可能表明某种干预措施有效，或者某个现象确实存在。

哈哈哈#

关注

16
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Python 求回归方程及显著性分析

此外，stats.f.sf`的使用非常方便，可以通过调用`scipy.stats.f.sf(f_value, dfn, dfd)`来计算，其中f_value`是F统计量的值，`dfn`是分子自由度，`dfd`是分母自由度。stats.f.sf`是用于计算F分布生存函数的函数，它在假设检验中用于评估F统计量对应的p值，可以帮助判断数据中的方差是否具有统计学上的显著性差异。- **进行双侧检验**：如果是双侧检验，通常需要将`stats.f.sf`计算出的值乘以2，或者使用其他方法来计算双尾概率。
复制链接

扫一扫