预测分析（五）：模型评价

^ω^宇博

于 2025-04-04 13:52:23 发布

阅读量1.3k

点赞数 13

分类专栏：数学模型数学建模文章标签： python 机器学习

本文链接：https://blog.csdn.net/2301_81197800/article/details/146997721

版权

数学建模同时被 2 个专栏收录

18 篇文章

订阅专栏

数学模型

12 篇文章

订阅专栏

文章目录

模型评价

模型评价

回归模型的评价

回归模型用于预测连续数值，以下是常见的回归模型评价指标：

1. 均方误差（Mean Squared Error, MSE）

定义：预测值与真实值之间误差平方的平均值。公式为

$\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2$

其中 $y_i$ 是真实值， $\hat{y}_i$ 是预测值， $n$ 是样本数量。

特点：对异常值较为敏感，因为误差是平方的，异常值会使 MSE 显著增大。它衡量了模型预测的平均误差大小，值越小，模型的预测精度越高。

2. 均方根误差（Root Mean Squared Error, RMSE）

定义：均方误差的平方根，即

$RMSE=\sqrt{\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2}$

特点：与原始数据具有相同的单位，更直观地反映了模型预测值与真实值之间的平均误差大小。同样， $RMSE$ 越小，模型性能越好。

3. 平均绝对误差（Mean Absolute Error, MAE）

定义：预测值与真实值之间绝对误差的平均值，公式为 $MAE=\frac{1}{n}\sum_{i = 1}^{n}|y_i - \hat{y}_i|$
特点：对异常值的敏感性低于 MSE 和 RMSE，因为它没有对误差进行平方操作。MAE 能更稳健地反映模型的平均预测误差。

4. 决定系数（Coefficient of Determination, (R^2)）

定义：表示模型对数据的拟合程度，公式为

$R^{2}=1-\frac{\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i = 1}^{n}(y_i-\bar{y})^2}$

其中 $\bar{y}$ 是真实值的平均值。

特点：取值范围在 ([0, 1]) 之间，(R^2) 越接近 1，说明模型对数据的拟合效果越好，即模型能够解释的方差比例越高；(R^2) 接近 0 则表示模型的拟合效果较差。

分类模型的评价

分类模型用于预测离散的类别标签，常见的分类模型评价指标如下：

1. 准确率（Accuracy）

定义：分类正确的样本数占总样本数的比例，公式为

$Accuracy=\frac{TP + TN}{TP+TN+FP+FN}$

其中 $TP$ 是真正例（预测为正类且实际为正类）， $TN$ 是真反例（预测为反类且实际为反类）， $FP$ 是假正例（预测为正类但实际为反类）， $FN$ 是假反例（预测为反类但实际为正类）。

特点：简单直观，能整体反映模型的分类性能。但在类别不平衡的数据集上，准确率可能不能很好地反映模型的真实性能。

2. 精确率（Precision）

定义：预测为正类的样本中，实际为正类的比例，公式为 $Precision=\frac{TP}{TP + FP}$
特点：衡量了模型预测为正类的准确性，适用于关注预测为正类的样本是否正确的场景，例如在垃圾邮件分类中，更关注被预测为垃圾邮件的邮件是否真的是垃圾邮件。

3. 召回率（Recall）

定义：实际为正类的样本中，被正确预测为正类的比例，公式为 $Recall=\frac{TP}{TP + FN}$
特点：衡量了模型对正类样本的识别能力，适用于关注是否能尽可能多地找出正类样本的场景，例如在疾病诊断中，更关注是否能尽可能多地找出患病的患者。

4. F1值（F1 - Score）

定义：精确率和召回率的调和平均数，公式为 $F1=\frac{2\times Precision\times Recall}{Precision + Recall}$
特点：综合考虑了精确率和召回率，当精确率和召回率都较高时，F1 值才会较高。它在需要同时兼顾精确率和召回率的场景中非常有用。

5. ROC曲线与AUC值

定义：
- ROC曲线（Receiver Operating Characteristic Curve）：以假正例率 $FPR=\frac{FP}{FP + TN}$ 为横轴，真正例率 $TPR=\frac{TP}{TP + FN}$ 为纵轴绘制的曲线。
- AUC值（Area Under the Curve）：ROC曲线下的面积。
特点：ROC曲线能直观地展示模型在不同阈值下的分类性能，AUC值的取值范围在 ([0, 1]) 之间，AUC 值越接近 1，说明模型的分类性能越好。ROC曲线和 AUC 值对类别不平衡的数据集具有较好的鲁棒性。

下面是一个使用 Python 和 scikit - learn 库计算回归和分类模型评价指标的示例代码：

from sklearn.datasets import make_regression, make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# 回归模型评价示例
# 生成回归数据集
X_reg, y_reg = make_regression(n_samples=100, n_features=10, noise=0.5, random_state=42)
X_reg_train, X_reg_test, y_reg_train, y_reg_test = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

# 训练回归模型
reg_model = LinearRegression()
reg_model.fit(X_reg_train, y_reg_train)

# 进行预测
y_reg_pred = reg_model.predict(X_reg_test)

# 计算回归模型评价指标
mse = mean_squared_error(y_reg_test, y_reg_pred)
r2 = r2_score(y_reg_test, y_reg_pred)
print(f"回归模型 - 均方误差: {mse}")
print(f"回归模型 - 决定系数: {r2}")

# 分类模型评价示例
# 生成分类数据集
X_clf, y_clf = make_classification(n_samples=100, n_features=10, n_informative=5, random_state=42)
X_clf_train, X_clf_test, y_clf_train, y_clf_test = train_test_split(X_clf, y_clf, test_size=0.2, random_state=42)

# 训练分类模型
clf_model = LogisticRegression()
clf_model.fit(X_clf_train, y_clf_train)

# 进行预测
y_clf_pred = clf_model.predict(X_clf_test)
y_clf_proba = clf_model.predict_proba(X_clf_test)[:, 1]

# 计算分类模型评价指标
accuracy = accuracy_score(y_clf_test, y_clf_pred)
precision = precision_score(y_clf_test, y_clf_pred)
recall = recall_score(y_clf_test, y_clf_pred)
f1 = f1_score(y_clf_test, y_clf_pred)
auc = roc_auc_score(y_clf_test, y_clf_proba)
print(f"分类模型 - 准确率: {accuracy}")
print(f"分类模型 - 精确率: {precision}")
print(f"分类模型 - 召回率: {recall}")
print(f"分类模型 - F1值: {f1}")
print(f"分类模型 - AUC值: {auc}")

K折交叉验证技术

k折交叉验证是一种用于评估机器学习模型性能的重要技术，旨在让模型在不同的数据子集上进行训练和验证，以更全面、准确地评估模型的泛化能力。下面为你详细介绍它的原理、步骤、优势、局限性以及Python代码示例。

原理

该方法把原始数据集随机且均匀地分成k个互不重叠的子集，接着进行k轮迭代。每一轮迭代里，会挑选其中1个子集当作验证集，剩下的k - 1个子集合并成训练集。模型在训练集上训练，在验证集上验证，最后把k次验证的结果求平均值，以此作为模型性能的评估指标。

步骤

数据划分：把原始数据集随机均分为k个大小相近的子集。
循环验证：
- 对每一轮迭代 $i$ $(i 从 1 到 k ）$
  - 选第i个子集作为验证集，其余 $k - 1$ 个子集合并为训练集。
  - 用训练集训练模型。
  - 用验证集验证训练好的模型，并计算性能指标（如准确率、均方误差等）。
结果汇总：将k次验证得到的性能指标求平均值，作为模型最终的性能评估结果。