【Python读书数据，并计算数据的相关系数、方差，均方根误差】

最新推荐文章于 2024-09-17 23:15:58 发布

学地理的小胖砸

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量289

点赞数 3

分类专栏： python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_36253366/article/details/141109106

版权

python 专栏收录该内容

142 篇文章 0 订阅

订阅专栏

为了处理Python中的读书数据（假设这里指的是一系列关于书籍阅读量或评分的数据），并计算这些数据的相关系数、方差以及均方根误差（RMSE），我们首先需要明确数据的结构。这里，我将假设我们有一组关于书籍的评分数据，并展示如何使用Python的numpy和scipy库来计算这些统计量。

假设数据

假设我们有两列数据：一列是书籍的“预期评分”（由专家或算法给出），另一列是“实际评分”（由读者给出）。

import numpy as np

# 假设数据
expected_scores = np.array([8, 9, 7, 8, 9, 7, 6, 8, 7, 9])
actual_scores = np.array([7, 8, 6, 8, 10, 7, 5, 7, 8, 8])

计算相关系数

相关系数（这里我们使用皮尔逊相关系数）衡量两个变量之间的线性关系强度和方向。

from scipy.stats import pearsonr

corr, _ = pearsonr(expected_scores, actual_scores)
print(f"相关系数: {corr}")

计算方差

方差是衡量数据分布离散程度的统计量。

variance_expected = np.var(expected_scores)
variance_actual = np.var(actual_scores)

print(f"预期评分的方差: {variance_expected}")
print(f"实际评分的方差: {variance_actual}")

计算均方根误差（RMSE）

RMSE是衡量预测值与真实值之间差异的一种常用方法，特别是在回归问题中。

from sklearn.metrics import mean_squared_error

rmse = np.sqrt(mean_squared_error(expected_scores, actual_scores))
print(f"均方根误差(RMSE): {rmse}")

注意，这里使用了sklearn.metrics中的mean_squared_error函数来计算均方误差（MSE），然后取平方根得到RMSE。

完整代码

将上述所有部分组合在一起，我们得到以下完整的Python脚本：

import numpy as np
from scipy.stats import pearsonr
from sklearn.metrics import mean_squared_error

# 假设数据
expected_scores = np.array([8, 9, 7, 8, 9, 7, 6, 8, 7, 9])
actual_scores = np.array([7, 8, 6, 8, 10, 7, 5, 7, 8, 8])

# 计算相关系数
corr, _ = pearsonr(expected_scores, actual_scores)
print(f"相关系数: {corr}")

# 计算方差
variance_expected = np.var(expected_scores)
variance_actual = np.var(actual_scores)
print(f"预期评分的方差: {variance_expected}")
print(f"实际评分的方差: {variance_actual}")

# 计算均方根误差(RMSE)
rmse = np.sqrt(mean_squared_error(expected_scores, actual_scores))
print(f"均方根误差(RMSE): {rmse}")