Scikit-learn(简称 sklearn)是 Python 中一个非常流行的机器学习库。它提供了简单高效的工具用于数据挖掘和数据分析,构建在 NumPy、SciPy 和 matplotlib 之上。以下是一个基础教程,涵盖了 sklearn 的安装、基本概念、主要组件和一些简单的示例。
1. 安装 Scikit-learn
在开始使用 scikit-learn 之前,需要确保已经安装了它。可以使用 pip 安装:
pip install scikit-learn
2. 数据准备
在进行任何机器学习任务之前,首先需要准备好数据。scikit-learn 提供了一些内置的数据集,可以用于学习和测试。也可以使用 pandas 或其他库加载自定义数据集。
import pandas as pd
from sklearn.datasets import load_iris
# 加载 iris 数据集
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['target'] = iris.target
print(data.head())
3. 数据预处理
在训练模型之前,需要对数据进行预处理。常见的预处理步骤包括数据归一化、数据标准化、缺失值处理和类别编码等。
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 分离特征和标签
X = data.drop('target', axis=1)
y = data['target']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
4. 选择和训练模型
scikit-learn 提供了多种机器学习算法,可以根据具体任务选择适合的算法。以下是一些常见的模型:
4.1 线性回归
from sklearn.linear_model import LinearRegression
# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
4.2 支持向量机
from sklearn.svm import SVC
# 创建 SVM 模型
model = SVC(kernel='linear')
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
4.3 决策树
from sklearn.tree import DecisionTreeClassifier
# 创建决策树模型
model = DecisionTreeClassifier()
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
5. 模型评估
训练模型后,需要对其性能进行评估。scikit-learn 提供了一些评估指标和方法。
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
# 准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
# 混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print(f"Confusion Matrix:\n{conf_matrix}")
# 分类报告
class_report = classification_report(y_test, y_pred)
print(f"Classification Report:\n{class_report}")
6. 超参数调优
通过调整模型的超参数,可以提高模型的性能。scikit-learn 提供了 GridSearchCV 和 RandomizedSearchCV 用于超参数调优。
from sklearn.model_selection import GridSearchCV
# 定义参数网格
param_grid = {
'C': [0.1, 1, 10, 100],
'gamma': [1, 0.1, 0.01, 0.001],
'kernel': ['rbf']
}
# 创建 GridSearchCV 对象
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=2)
# 训练模型
grid.fit(X_train, y_train)
# 最佳参数
print(f"Best Parameters: {grid.best_params_}")
# 使用最佳参数预测
y_pred = grid.predict(X_test)
7. 保存和加载模型
训练好的模型可以保存到文件中,以便以后加载和使用。
import joblib
# 保存模型
joblib.dump(model, 'model.joblib')
# 加载模型
model = joblib.load('model.joblib')
# 使用加载的模型进行预测
y_pred = model.predict(X_test)
总结
通过以上步骤,可以完成一个基本的机器学习任务。scikit-learn 提供了丰富的工具和函数,可以帮助你快速构建和评估机器学习模型。学习和掌握这些基本概念和技术,可以为更复杂的机器学习任务打下坚实的基础。