深入理解 Scikit-Learn 中的 fit, transform 和 fit_transform

jjqhj

于 2024-08-04 15:41:12 发布

阅读量1.1k

点赞数 21

本文链接：https://blog.csdn.net/jjqhj/article/details/140906700

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

# 深入理解 Scikit-Learn 中的 fit, transform 和 fit_transform

在使用 Scikit-Learn 进行数据处理和机器学习建模时，经常会遇到三个重要的方法：`fit`、`transform` 和 `fit_transform`。它们是 Scikit-Learn 中用于数据预处理、特征提取和模型训练的核心方法。本文将详细解释这三个方法的作用、区别，并通过实例展示它们的使用。

1. fit

`fit` 方法的主要作用是计算并存储模型参数。这些参数将在 `transform` 方法中用于数据转换。在数据预处理中，`fit` 通常用于估计数据的统计特性，如均值、方差、最大值、最小值等。

### 例子

from sklearn.preprocessing import StandardScaler
import numpy as np

# 创建一个样本数据
X = np.array([[1., -1., 2.],
              [2., 0., 0.],
              [0., 1., -1.]])

# 初始化 StandardScaler
scaler = StandardScaler()

# 计算并存储均值和标准差
scaler.fit(X)

# 查看计算得到的均值和标准差
print("均值：", scaler.mean_)
print("标准差：", scaler.scale_)

在上述例子中，`fit` 方法计算并存储了样本数据的均值和标准差，这些参数将用于后续的数据标准化操作，在机器学习中通常假设数据服从相同的分布，因此在标准归一化化测试集时需要用训练集的均值和标准差。

2. transform

`transform` 方法的作用是使用 `fit` 方法计算得到的参数对数据进行转换。对于数据预处理，`transform` 通常用于将数据缩放、标准化或归一化。

### 例子

# 使用计算得到的均值和标准差对数据进行标准化
X_scaled = scaler.transform(X)

print("标准化后的数据：\n", X_scaled)

在上述例子中，`transform` 方法使用先前 `fit` 方法计算得到的均值和标准差对数据进行标准化，使每个特征的均值为 0，标准差为 1。

3. fit_transform

`fit_transform` 方法是 `fit` 和 `transform` 的组合。它首先对数据进行 `fit`（计算并存储参数），然后对数据进行 `transform`（使用计算得到的参数转换数据）。这种方法通常在数据预处理中更为简洁高效。

### 例子

# fit_transform 一步完成计算参数和数据转换
X_scaled_direct = scaler.fit_transform(X)

print("使用 fit_transform 标准化后的数据：\n", X_scaled_direct)

在上述例子中，`fit_transform` 方法一步完成了计算参数和数据转换，效果与先 `fit` 再 `transform` 相同。

4. 总结

### fit

- 作用：计算并存储模型参数（如均值、标准差）。
- 适用对象：估计器、转换器。
- 主要使用场景：参数计算。

### transform

- 作用：使用 `fit` 方法计算得到的参数对数据进行转换。
- 适用对象：转换器。
- 主要使用场景：数据转换。

### fit_transform

- 作用：先 `fit`（计算并存储参数），再 `transform`（转换数据）。
- 适用对象：转换器。
- 主要使用场景：数据预处理时一步完成参数计算和数据转换。

5. 应用实例

下面是一个完整的例子，展示如何使用 `fit`、`transform` 和 `fit_transform` 方法进行数据预处理和模型训练。

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 加载 Iris 数据集
iris = load_iris()
X = iris.data
y = iris.target

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化 StandardScaler
scaler = StandardScaler()

# 对训练集进行 fit 和 transform
X_train_scaled = scaler.fit_transform(X_train)

# 对测试集只进行 transform
X_test_scaled = scaler.transform(X_test)

# 初始化逻辑回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train_scaled, y_train)

# 评估模型
accuracy = model.score(X_test_scaled, y_test)
print("模型准确率：", accuracy)

在这个例子中，我们首先对训练数据进行 `fit_transform`，然后对测试数据进行 `transform`，确保训练数据和测试数据使用相同的缩放参数进行标准化。最后，我们使用标准化后的数据训练并评估逻辑回归模型。

通过以上内容，希望大家能够更好地理解 `fit`、`transform` 和 `fit_transform` 的区别和使用场景，在实际项目中灵活运用它们。

---

jjqhj

关注

21
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
深入理解 Scikit-Learn 中的 fit, transform 和 fit_transform

## fit- 作用：计算并存储模型参数（如均值、标准差）。- 适用对象：估计器、转换器。- 主要使用场景：参数计算。- 作用：使用 `fit` 方法计算得到的参数对数据进行转换。- 适用对象：转换器。- 主要使用场景：数据转换。- 作用：先 `fit`（计算并存储参数），再 `transform`（转换数据）。- 适用对象：转换器。- 主要使用场景：数据预处理时一步完成参数计算和数据转换。
复制链接

扫一扫