一个非常流行的机器学习库 Scikit-learn（简称 sklearn）的简单应用

本文链接：https://blog.csdn.net/weiliang_Handan/article/details/139321544

Scikit-learn（简称 sklearn）是 Python 中一个非常流行的机器学习库。它提供了简单高效的工具用于数据挖掘和数据分析，构建在 NumPy、SciPy 和 matplotlib 之上。以下是一个基础教程，涵盖了 sklearn 的安装、基本概念、主要组件和一些简单的示例。

1. 安装 Scikit-learn

在开始使用 scikit-learn 之前，需要确保已经安装了它。可以使用 pip 安装：

pip install scikit-learn

2. 数据准备

在进行任何机器学习任务之前，首先需要准备好数据。scikit-learn 提供了一些内置的数据集，可以用于学习和测试。也可以使用 pandas 或其他库加载自定义数据集。

import pandas as pd
from sklearn.datasets import load_iris

# 加载 iris 数据集
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['target'] = iris.target
print(data.head())

3. 数据预处理

在训练模型之前，需要对数据进行预处理。常见的预处理步骤包括数据归一化、数据标准化、缺失值处理和类别编码等。

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 分离特征和标签
X = data.drop('target', axis=1)
y = data['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

4. 选择和训练模型

scikit-learn 提供了多种机器学习算法，可以根据具体任务选择适合的算法。以下是一些常见的模型：

4.1 线性回归

from sklearn.linear_model import LinearRegression

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

4.2 支持向量机

from sklearn.svm import SVC

# 创建 SVM 模型
model = SVC(kernel='linear')

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

4.3 决策树

from sklearn.tree import DecisionTreeClassifier

# 创建决策树模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

5. 模型评估

训练模型后，需要对其性能进行评估。scikit-learn 提供了一些评估指标和方法。

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

# 混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print(f"Confusion Matrix:\n{conf_matrix}")

# 分类报告
class_report = classification_report(y_test, y_pred)
print(f"Classification Report:\n{class_report}")

6. 超参数调优

通过调整模型的超参数，可以提高模型的性能。scikit-learn 提供了 GridSearchCV 和 RandomizedSearchCV 用于超参数调优。

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf']
}

# 创建 GridSearchCV 对象
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=2)

# 训练模型
grid.fit(X_train, y_train)

# 最佳参数
print(f"Best Parameters: {grid.best_params_}")

# 使用最佳参数预测
y_pred = grid.predict(X_test)

7. 保存和加载模型

训练好的模型可以保存到文件中，以便以后加载和使用。

import joblib

# 保存模型
joblib.dump(model, 'model.joblib')

# 加载模型
model = joblib.load('model.joblib')

# 使用加载的模型进行预测
y_pred = model.predict(X_test)

总结

通过以上步骤，可以完成一个基本的机器学习任务。scikit-learn 提供了丰富的工具和函数，可以帮助你快速构建和评估机器学习模型。学习和掌握这些基本概念和技术，可以为更复杂的机器学习任务打下坚实的基础。