Python汽车油耗活塞循环原木纱强度及电阻覆盖率现实统计模型计算

本文链接：https://blog.csdn.net/jiyotin/article/details/139173286

🎯要点

🍇Python皮尔逊相关系数

皮尔逊相关系数是两个变量之间线性关系的强度和方向的度量。用r表示，范围为-1到1。-1表示完全负相关，0表示不相关，1表示完全正相关。

皮尔逊相关公式：
$r=\frac{\sum\left(x-m_x\right)\left(y-m_y\right)}{\sqrt{\sum\left(x-m_x\right)^2 \sum\left(y-m_y\right)^2}}$
换句话说，如果两个变量具有较高的正相关性，则意味着当一个变量增加时，另一个变量也趋于增加。另一方面，如果它们具有较高的负相关性，则意味着当一个变量增加时，另一个变量趋于减少。

例如，假设我们有一组学生的学习时数和考试成绩的数据。我们可以利用皮尔逊相关系数来判断这两个变量之间是否存在相关关系。如果存在正相关（r > 0），我们可以得出结论，学习越多的学生往往考试成绩越高。如果存在负相关（r < 0），我们可以得出结论，学习越多的学生考试成绩往往越低。在Python中，我们可以使用“scipy.stats”模块中的“pearsonr”函数计算皮尔逊相关系数。如下例：

from scipy.stats import pearsonr

hours_studied = [5, 10, 15, 20, 25]
exam_scores = [60, 70, 80, 90, 100]

r, p_value = pearsonr(hours_studied, exam_scores)

print("Pearson correlation coefficient:", r)

输出：

Pearson correlation coefficient: 0.9999999999999999

在此示例中，学习时间和考试成绩之间存在完美的正相关关系 (r = 1)。请注意，“pearsonr”函数还返回一个 p 值，它是相关系数统计显着性的度量。我们不会在这里详细介绍 p 值，但一般来说，较低的 p 值表示反对原假设的证据更强（即没有相关性）。皮尔逊相关系数是两个变量之间线性关系的度量。范围为-1到1，其中-1表示完全负线性相关，0表示没有线性相关，1表示完全正线性相关。

为了使用 Scipy 的“pearsonr”函数计算皮尔逊相关系数，我们需要两个数据数组来表示我们想要比较的两个变量。该函数返回两个值：相关系数和 p 值。相关系数告诉我们两个变量之间的线性关系有多强。值越接近-1或1表示线性关系越强，而值越接近0表示线性关系越弱。

p 值告诉我们相关系数是否具有统计显着性。如果 p 值小于我们选择的显着性水平（通常为 0.05），我们可以得出结论，两个变量之间存在显着的线性关系。

Scipy 是一个功能强大的 Python 库，为科学计算提供各种工具。 Scipy 中提供的众多函数之一是 Pearsonr，它用于计算两个数据数组之间的 Pearson 相关系数。皮尔逊相关系数，也称为皮尔逊 r，是两个变量之间线性关系的度量。范围为-1到1，其中-1表示强负相关，0表示无相关，1表示强正相关。在Scipy中使用Pearsonr函数，我们需要从scipy.stats模块导入它。这是一个例子：

from scipy.stats import pearsonr

x = [1, 2, 3, 4, 5]
y = [5, 4, 3, 2, 1]

# Calculate Pearson's r
corr_coef, p_value = pearsonr(x, y)

print("Pearson correlation coefficient:", corr_coef)
print("p-value:", p_value)

在此示例中，我们有两个数据数组“x”和“y”。然后，我们将这些数组传递给“pearsonr”函数，并将结果存储在“corr_coef”和“p_value”中。 “corr_coef”变量包含 Pearson 相关系数，而“p_value”变量包含双尾 p 值。值得注意的是，为了使皮尔逊相关系数有意义，两个变量都应该呈正态分布。如果不满足此假设，其他相关系数（例如斯皮尔曼等级相关系数）可能更合适。

假设我们有一个包含三个变量的数据集：x、y 和 z。我们可以使用嵌套 for 循环和“pearsonr”函数来计算所有可能的变量对之间的皮尔逊相关系数。

import numpy as np
from scipy.stats import pearsonr

x = np.array([1, 2, 3, 4, 5])
y = np.array([6, 7, 8, 9, 10])
z = np.array([11, 12, 13, 14, 15])

variables = ['x', 'y', 'z']

for i in range(len(variables)):
    for j in range(i+1,len(variables)):
        corr_coef, p_value = pearsonr(eval(variables[i]), eval(variables[j]))
        print("Pearson Correlation Coefficient between", variables[i], "and", variables[j], "is", corr_coef)

在此示例代码块中，我们创建了一个包含三个变量（x、y 和 z）的数据集，并将它们存储在 numpy 数组中。然后，我们创建了一个变量名称列表，并使用嵌套的 for 循环来循环遍历所有可能的变量对。

最后，我们打印出每对变量之间的皮尔逊相关系数。该代码块的输出将是：

Pearson Correlation Coefficient between x and y is 1.0
Pearson Correlation Coefficient between x and z is 1.0
Pearson Correlation Coefficient between y and z is 1.0

由于所有三个变量都具有完美的正相关性，因此所有变量对之间的 Pearson 相关系数为 1.0。