python实现sklearn的基本操作流程，sklearn预处理方法，sklearn基础算法的使用，以及sklearn模型的选择方法。

最新推荐文章于 2024-07-15 15:40:17 发布

然乐乐

最新推荐文章于 2024-07-15 15:40:17 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习文章标签：机器学习 sklearn 数据分析 python 数据挖掘

本文链接：https://blog.csdn.net/qq_36613615/article/details/83037523

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

python实现sklearn的基本操作流程，sklearn预处理方法，sklearn基础算法的使用，以及sklearn模型的选择方法。

一、数据的获取与分析
- - 1.读取数据
  - 2.分析数据
二、数据的预处理
三、将数据分为训练集和测试集
四、基本模型介绍
五、总结

一、数据的获取与分析

1.读取数据

本文使用pandas的read_csv方法读取数据，常用的的方法还有，如pandas.read_sql_query(),pandas.read_excel()等。

import pandas as pd
#读取数据
data = pandas.read_csv('dest.csv')

2.分析数据

在进行数据分析之前，首先要了解要分析的数据，以下操作为帮助自己更好的了解自己的数据及其结构。

#查看数据的数据维度
data.shape
#查看数据是否有空值。索引为字段，值为bool值，True有空值，False无空值。
data.isnull().any()
#查看数据的数据类型
data.info()
#查看数据的取值区间。
print(data)

二、数据的预处理

如果目标字段为数字型

机器能够直接识别数字信息，故可以直接进行处理。

StandardScaler()

去均值和方差归一化。使数据转换为均值为0，方差为1的列。

from sklearn.preprocessing import StandardScaler
std = StandardScaler()
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = std.fit_transform(data[cols])

MinMaxScaler()

最小最大值标准化,将属性缩放到一个指定的最大和最小值（通常是1-0）之间。通常指定feature_range。

from sklearn.preprocessing import MinMaxScaler
#将其标准化为最小值为2，最大值为5
mms = .MinMaxScaler(feature_range=(2,5))
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = mm.fit_transform(data[cols])

VarianceThreshold()

数据特征值选择。筛选出特征值大于某个值的字段。

from sklearn.feature_selection import VarianceThreshold
#threshold阈值，选取特征值大于阈值的字段。
var = VarianceThreshold(threshold=10.0)
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = var.fit_transform(data[cols])

如果目标字段为文本字段

如果为中文文本字段。要先使用jieba分词，对文本数据进行分词。然后将文本信息用空格隔开。进行预处理，这里就不过多介绍jieba分词。大家可以去详细看看jieba分词。

TfidfVectorizer()

根据TF(词频)和IDF(逆向词频)进行分类。通过get_feature_names()可获得所有文本的关键词，通过toarray()可看到词频矩阵的结果。

from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer()
cols = ['字段1','字段2']
data_new = tf.fit_transform(data[cols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())

CountVectorizer()

会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词，通过toarray()可看到词频矩阵的结果。

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
cols = ['字段1','字段2']
data_new = cv.fit_transform(data[cols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())

如果目标数据为字典（dict）

DictVectorizer()

对使用字典存储的数据进行特征抽取和向量化。它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词，通过toarray()可看到词频矩阵的结果。

from sklearn.feature_extraction import DictVectorizer
#sparse=False表示不转化为稀疏矩阵。
dict = DictVectorizer(sparse=False)
cols = ['字段1','字段2']
data_new = dict.fit_transform(data[lols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())

三、将数据分为训练集和测试集

如果待测样本中的正负样本值相差不大，则使用train_test_split()将数据分为训练集和测试集

from sklearn.model_selection import train_test_split
#X为所有的X值，y为X值所对应的结果值。test_size=0.25表示测试集占25%，random_state 表示随机取出数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

如果待测样本中正负样本值相差很大，则需要使用SMOTE过采样。需要安装imblearn库。

pip install imblearn

from sklearn.model_selection import train_test_split
#将数据分为测试集和训练集但正负样本值相差过大。
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.25)

#过采样
from imblearn.over_sampling import SMOTE
# 训练时，要保证样本均衡，将X_train和y_train样本过采样。测试时候，样本不均衡，没问题的
smote = SMOTE()
X_train_new,y_train_new = smote.fit_sample(X_train,y_train)

四、基本模型介绍

一：线性回归模型 LinearRegression()

from sklearn.linear_model import LinearRegression
from sklearn.externals import joblib
from sklearn.metrics import r2_score
lr = LinearRegression()
#训练模型
lr.fit(X_train_new,y_train_new)
#保存训练模型
joblib.dump(lr,'./iris.pkl')
#进行预测
y_predict = lr.predict(X_test)
#如果预测数据进行过预处理，还要再转换回原始数据，例如进行过标准化。
y_predict_true = std_y.inverse_transform(y_predict)
#对模型进行评分。
score = r2_score(y_test,y_predict_true)

二、朴素贝叶斯分类器 MultinomialNB

从已知

from sklearn.naive_bayes import MultinomialNB
mul = MultinomialNB()
#训练模型
mul.fit(X_train_new,y_train_new)
#进行预测
y_predict = mul.predict(X_test)

三、K最近邻分类器（Knn算法） KNeighborsClassifier

kmeans算法的过程:(假如有两类)
1.随机选择两个点作为聚类的中心
2.计算所有点距离两个中心的距离，选择距离较近的点作为类别(例如:距离蓝色点近,类别就是蓝色)
3.计算已经分好类的各组数据的平均值,使用各组数据的平均值作为新的中心。
4.以新的中心为依据,跳转到第二步。
5.直到收敛(两次迭代的数值没有明显变化:新中心点的距离减去上次中心点的距离小于某个阈值)。

from sklearn.neighbors import KNeighborsClassifier
#n_neighbors=3表示找出三个最近的 判断这三个中属于哪个类别的多。
knn = KNeighborsClassifier(n_neighbors=3)
#训练模型
knn.fit(X_train_new,y_train_new)
#进行预测
knn.predict(x_test)

四、决策树 DecisionTreeClassifier

决策树是一种无监督的学习方法，用于分类和回归。它对数据中蕴含的决策规则建模，以预测目标变量的值。主要是利用信息熵增益的不同。

from sklearn.tree import DecisionTreeClassifier
d_tree = DecisionTreeClassifier()
#训练模型
d_tree.fit(X_train_new,y_train_new)
#预测数据
d_tree.predict(x_test)

五、总结

sklearn算法使用方法，都是使用fit函数训练模型，然后再使用predict函数进行预测。下面贴一张sklearn如何选择算法的图。
在这里插入图片描述

然乐乐

关注

2
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
python实现sklearn的基本操作流程，sklearn预处理方法，sklearn基础算法的使用，以及sklearn模型的选择方法。

python实现sklearn的基本操作流程，sklearn预处理方法，sklearn基础算法的使用，以及sklearn模型的选择方法。一、数据的获取与分析1.读取数据2.分析数据二、数据的预处理如果目标字段为数字型StandardScaler()MinMaxScaler()VarianceThreshold()如果目标字段为文本字段TfidfVectorizer()CountVectorizer...
复制链接

扫一扫

专栏目录