Python 进阶篇:Sklearn 库

最近研究机器学习算法需要用到sklearn,我们来详细了解一下如何使用 sklearn 库进行机器学习。sklearn 是一个非常流行的 Python 库,提供了许多机器学习算法和工具,用于数据预处理、模型训练、模型评估等。下面是一些常见的 sklearn 使用场景和示例代码。

1. 数据预处理

数据标准化

标准化可以使数据的均值为0,标准差为1,从而使得不同特征具有相同的尺度。

from sklearn.preprocessing import StandardScaler
import numpy as np

# 示例数据
data = np.array([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0]])

# 创建标准化器
scaler = StandardScaler()

# 拟合数据并进行转换
scaled_data = scaler.fit_transform(data)

print(scaled_data)
缺失值填补

处理缺失值是数据预处理中的重要步骤。

from sklearn.impute import SimpleImputer

# 示例数据(带缺失值)
data = np.array([[1.0, 2.0, np.nan], [4.0, np.nan, 6.0], [7.0, 8.0, 9.0]])

# 创建缺失值填补器
imputer = SimpleImputer(strategy='mean')

# 拟合数据并进行转换
imputed_data = imputer.fit_transform(data)

print(imputed_data)

2. 模型训练与评估

线性回归
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 示例数据
X = np.array([[1.0], [2.0], [3.0], [4.0], [5.0]])
y = np.array([1.5, 3.5, 2.0, 5.0, 4.5])

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')
分类(例如:逻辑回归)
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 示例数据
X = np.array([[1.0, 2.0], [1.5, 1.8], [2.0, 2.2], [2.5, 2.0], [3.0, 3.5], [3.5, 3.0]])
y = np.array([0, 0, 0, 1, 1, 1])

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建逻辑回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

3. 超参数调优

网格搜索

网格搜索是超参数调优的一种常见方法。

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# 示例数据
X = np.array([[1.0, 2.0], [1.5, 1.8], [2.0, 2.2], [2.5, 2.0], [3.0, 3.5], [3.5, 3.0]])
y = np.array([0, 0, 0, 1, 1, 1])

# 参数网格
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}

# 创建支持向量机模型
svc = SVC()

# 创建网格搜索
grid_search = GridSearchCV(svc, param_grid, cv=3)

# 执行网格搜索
grid_search.fit(X, y)

# 最佳参数
print(f'Best parameters: {grid_search.best_params_}')

以上是 sklearn 库的一些常见用法示例,涵盖了数据预处理、模型训练与评估以及超参数调优。你可以根据实际需要进行扩展和应用。希望这些示例能帮助你更好地理解和使用 sklearn

  • 12
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狒狒伯尼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值