python实现sklearn的基本操作流程,sklearn预处理方法,sklearn基础算法的使用,以及sklearn模型的选择方法。

一、数据的获取与分析

1.读取数据

本文使用pandas的read_csv方法读取数据,常用的的方法还有,如pandas.read_sql_query(),pandas.read_excel()等。

import pandas as pd
#读取数据
data = pandas.read_csv('dest.csv')

2.分析数据

在进行数据分析之前,首先要了解要分析的数据,以下操作为帮助自己更好的了解自己的数据及其结构。

#查看数据的数据维度
data.shape
#查看数据是否有空值。索引为字段,值为bool值,True有空值,False无空值。
data.isnull().any()
#查看数据的数据类型
data.info()
#查看数据的取值区间。
print(data)

二、数据的预处理

如果目标字段为数字型

机器能够直接识别数字信息,故可以直接进行处理。

StandardScaler()

去均值和方差归一化。使数据转换为均值为0,方差为1的列。

from sklearn.preprocessing import StandardScaler
std = StandardScaler()
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = std.fit_transform(data[cols])

MinMaxScaler()

最小最大值标准化,将属性缩放到一个指定的最大和最小值(通常是1-0)之间。通常指定feature_range。

from sklearn.preprocessing import MinMaxScaler
#将其标准化为最小值为2,最大值为5
mms = .MinMaxScaler(feature_range=(2,5))
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = mm.fit_transform(data[cols])

VarianceThreshold()

数据特征值选择。筛选出特征值大于某个值的字段。

from sklearn.feature_selection import VarianceThreshold
#threshold阈值,选取特征值大于阈值的字段。
var = VarianceThreshold(threshold=10.0)
#可以对多个字段同时进行标准化处理
cols = ['字段1','字段2']
data[cols] = var.fit_transform(data[cols])

如果目标字段为文本字段

如果为中文文本字段。要先使用jieba分词,对文本数据进行分词。然后将文本信息用空格隔开。进行预处理,这里就不过多介绍jieba分词。大家可以去详细看看jieba分词。

TfidfVectorizer()

根据TF(词频)和IDF(逆向词频)进行分类。通过get_feature_names()可获得所有文本的关键词,通过toarray()可看到词频矩阵的结果。

from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer()
cols = ['字段1','字段2']
data_new = tf.fit_transform(data[cols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())

CountVectorizer()

会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词,通过toarray()可看到词频矩阵的结果。

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
cols = ['字段1','字段2']
data_new = cv.fit_transform(data[cols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())

如果目标数据为字典(dict)

DictVectorizer()

对使用字典存储的数据进行特征抽取和向量化。它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词,通过toarray()可看到词频矩阵的结果。

from sklearn.feature_extraction import DictVectorizer
#sparse=False表示不转化为稀疏矩阵。
dict = DictVectorizer(sparse=False)
cols = ['字段1','字段2']
data_new = dict.fit_transform(data[lols])
#转化为矩阵形式
print(data_new.toarray())
#查看关键词
print(data_new.get_feature_names())

三、将数据分为训练集和测试集

如果待测样本中的正负样本值相差不大,则使用train_test_split()将数据分为训练集和测试集

from sklearn.model_selection import train_test_split
#X为所有的X值,y为X值所对应的结果值。test_size=0.25表示测试集占25%,random_state 表示随机取出数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

如果待测样本中正负样本值相差很大,则需要使用SMOTE过采样。需要安装imblearn库。

pip install imblearn
from sklearn.model_selection import train_test_split
#将数据分为测试集和训练集但正负样本值相差过大。
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.25)

#过采样
from imblearn.over_sampling import SMOTE
# 训练时,要保证样本均衡,将X_train和y_train样本过采样。测试时候,样本不均衡,没问题的
smote = SMOTE()
X_train_new,y_train_new = smote.fit_sample(X_train,y_train)

四、基本模型介绍

一:线性回归模型 LinearRegression()

from sklearn.linear_model import LinearRegression
from sklearn.externals import joblib
from sklearn.metrics import r2_score
lr = LinearRegression()
#训练模型
lr.fit(X_train_new,y_train_new)
#保存训练模型
joblib.dump(lr,'./iris.pkl')
#进行预测
y_predict = lr.predict(X_test)
#如果预测数据进行过预处理,还要再转换回原始数据,例如进行过标准化。
y_predict_true = std_y.inverse_transform(y_predict)
#对模型进行评分。
score = r2_score(y_test,y_predict_true)

二、朴素贝叶斯分类器 MultinomialNB

从已知

from sklearn.naive_bayes import MultinomialNB
mul = MultinomialNB()
#训练模型
mul.fit(X_train_new,y_train_new)
#进行预测
y_predict = mul.predict(X_test)

三、K最近邻分类器(Knn算法) KNeighborsClassifier

kmeans算法的过程:(假如有两类)
1.随机选择两个点作为聚类的中心
2.计算所有点距离两个中心的距离,选择距离较近的点作为类别(例如:距离蓝色点近,类别就是蓝色)
3.计算已经分好类的各组数据的平均值,使用各组数据的平均值作为新的中心。
4.以新的中心为依据,跳转到第二步。
5.直到收敛(两次迭代的数值没有明显变化:新中心点的距离减去上次中心点的距离小于某个阈值)。

from sklearn.neighbors import KNeighborsClassifier
#n_neighbors=3表示找出三个最近的 判断这三个中属于哪个类别的多。
knn = KNeighborsClassifier(n_neighbors=3)
#训练模型
knn.fit(X_train_new,y_train_new)
#进行预测
knn.predict(x_test)

四、决策树 DecisionTreeClassifier

决策树是一种无监督的学习方法,用于分类和回归。它对数据中蕴含的决策规则建模,以预测目标变量的值。主要是利用信息熵增益的不同。

from sklearn.tree import DecisionTreeClassifier
d_tree = DecisionTreeClassifier()
#训练模型
d_tree.fit(X_train_new,y_train_new)
#预测数据
d_tree.predict(x_test)

五、总结

sklearn算法使用方法,都是使用fit函数训练模型,然后再使用predict函数进行预测。下面贴一张sklearn如何选择算法的图。
在这里插入图片描述

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值