一、MAE 介绍
平均绝对误差(Mean Absolute Error,MAE)是回归模型评估中常用的一个指标,用于衡量模型预测值与实际值之间的平均绝对偏差。MAE能够直观地反映预测值与实际值之间的差异,对于异常值或偏离较大的点不会给予过高的权重,因此在某些场景中可能比均方根误差(RMSE)更为适用。
MAE的计算步骤如下:
- 收集数据:首先,我们需要一组包含实际目标值(真实值)和模型预测值的数据集。这些数据通常来自测试集,用于评估模型在未见过的数据上的性能。
- 计算绝对误差:对于数据集中的每一对实际值和预测值,我们计算它们之间的绝对差值。绝对差值能够消除正负误差的抵消,更真实地反映预测误差的大小。
- 计算平均绝对误差:将所有绝对误差相加,然后除以数据点的数量,得到的就是平均绝对误差MAE。
数学上,MAE的计算公式可以表示为:
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| MAE=n1∑i=1n∣yi−y^i∣
其中:
- n n n 是数据点的数量。
- y i y_i yi 是第 i i i 个数据点的实际目标值(真实值)。
- y ^ i \hat{y}_i y^i 是模型对第 i i i 个数据点的预测值。
- ∣ ⋅ ∣ |\cdot| ∣⋅∣ 表示取绝对值。
MAE的值越小,说明模型的预测性能越好,因为它意味着模型的预测值与实际值之间的平均绝对偏差越小。与RMSE相比,MAE对于异常值更加稳健,因为它只关注预测误差的绝对值,不会放大异常值对总体误差的影响。
二、案例学习
在Python的机器学习库sklearn中,我们可以利用sklearn中的mean_absolute_error函数来计算MAE。
下面是一个简单的示例,展示了如何使用sklearn计算MAE。
首先,我们需要导入必要的库和数据集。在这个例子中,我们将使用sklearn自带的波士顿房价数据集。
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing
from sklearn.metrics import mean_absolute_error
import pandas as pd
import numpy as np
housing = fetch_california_housing()
# 加载房价数据集
X = housing.data
y = housing.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
接下来,我们创建一个线性回归模型,并使用训练数据进行训练。
# 创建线性回归模型
model = LinearRegression()
# 使用训练数据进行训练
model.fit(X_train, y_train)
然后,我们使用训练好的模型对测试集进行预测,并计算预测值与实际值之间的MAE。
# 对测试集进行预测
y_pred = model.predict(X_test)
# 计算MAE
mae = mean_absolute_error(y_test, y_pred)
print(f'Mean Absolute Error: {mae}')
# Mean Absolute Error: 0.5332001304956977
在这个例子中,我们使用了线性回归模型进行预测,并计算了预测值与实际值之间的MAE。MAE的值越小,说明模型的预测效果越好。与RMSE相比,MAE对于异常值更加稳健,因为它只计算预测误差的绝对值,不会放大异常值的影响。
三、总结
需要注意的是,MAE只是评估模型性能的一个指标,我们需要综合考虑多个指标以及模型的实际应用场景来做出决策。在实际应用中,我们还可以结合其他回归模型指标如MSE、RMSE或决定系数(R²)等来全面评估模型的性能。
通过调整模型的超参数或选择不同的模型类型,我们可以进一步优化模型的预测能力,降低MAE的值。因此,在回归问题的建模过程中,计算MAE是一个重要的步骤,有助于我们了解模型的预测精度并进行相应的改进。