sklearn【MAE】平均绝对误差，原理及代码学习！

最新推荐文章于 2025-03-15 22:25:26 发布

帅帅的Python

最新推荐文章于 2025-03-15 22:25:26 发布

阅读量3.7k

点赞数 9

文章标签： sklearn 学习人工智能

本文链接：https://blog.csdn.net/weixin_42060598/article/details/138074108

版权

本文介绍了平均绝对误差(MAE)作为回归模型评估指标的基本概念、计算方法，以及在Pythonsklearn库中的应用实例。通过案例学习，强调了MAE的稳健性和在异常值处理中的优势。同时，提醒读者在模型评估时需综合考虑多个指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、MAE 介绍

平均绝对误差（Mean Absolute Error，MAE）是回归模型评估中常用的一个指标，用于衡量模型预测值与实际值之间的平均绝对偏差。MAE能够直观地反映预测值与实际值之间的差异，对于异常值或偏离较大的点不会给予过高的权重，因此在某些场景中可能比均方根误差（RMSE）更为适用。

MAE的计算步骤如下：

收集数据：首先，我们需要一组包含实际目标值（真实值）和模型预测值的数据集。这些数据通常来自测试集，用于评估模型在未见过的数据上的性能。
计算绝对误差：对于数据集中的每一对实际值和预测值，我们计算它们之间的绝对差值。绝对差值能够消除正负误差的抵消，更真实地反映预测误差的大小。
计算平均绝对误差：将所有绝对误差相加，然后除以数据点的数量，得到的就是平均绝对误差MAE。

数学上，MAE的计算公式可以表示为：

$\frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

其中：

$n$ 是数据点的数量。
$y_i$ 是第 $i$ 个数据点的实际目标值（真实值）。
$\hat{y}_i$ 是模型对第 $i$ 个数据点的预测值。
$|\cdot|$ 表示取绝对值。

MAE的值越小，说明模型的预测性能越好，因为它意味着模型的预测值与实际值之间的平均绝对偏差越小。与RMSE相比，MAE对于异常值更加稳健，因为它只关注预测误差的绝对值，不会放大异常值对总体误差的影响。

二、案例学习

在Python的机器学习库sklearn中，我们可以利用sklearn中的mean_absolute_error函数来计算MAE。

下面是一个简单的示例，展示了如何使用sklearn计算MAE。

首先，我们需要导入必要的库和数据集。在这个例子中，我们将使用sklearn自带的波士顿房价数据集。

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing
from sklearn.metrics import mean_absolute_error 
import pandas as pd
import numpy as np

housing = fetch_california_housing()

# 加载房价数据集
X = housing.data
y = housing.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

接下来，我们创建一个线性回归模型，并使用训练数据进行训练。

# 创建线性回归模型
model = LinearRegression()

# 使用训练数据进行训练
model.fit(X_train, y_train)

然后，我们使用训练好的模型对测试集进行预测，并计算预测值与实际值之间的MAE。

# 对测试集进行预测
y_pred = model.predict(X_test)

# 计算MAE
mae = mean_absolute_error(y_test, y_pred)
print(f'Mean Absolute Error: {mae}')

# Mean Absolute Error: 0.5332001304956977