sklearn chapter3 x1

阿泽学习日记

已于 2022-03-17 12:57:57 修改

阅读量1.1k

点赞数

文章标签： sklearn python 机器学习

于 2022-03-17 00:52:39 首次发布

本文链接：https://blog.csdn.net/nendie1/article/details/123540478

版权

数据预处理以及特征工程

使用的库
from sklearn.preprocessing import LabelEncoder,OrdinalEncoder,OneHotEncoder,Binarizer
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2,f_classif,mutual_info_classif,SelectFromModel,RFE

数据无量纲化
数据归一化（中心化、缩放）
sklearn.preprocessing import MinMaxScaler
计算公式

z = （x- min(x))/(max(x)-min(x))

a = MinMaxScaler() + b = fit_transform() 完成归一化

a.inverse_transform(b) 可以逆转

标准化 (from sklearn.preprocessing import StandardScaler)
按均值中心化(类似正态分布中心线为0），按标准差进行缩放（正态分布压缩到1）

X* = （x-μ）/σ

参数
feature_range ---- 控制压缩范围默认[0,1]

属性和接口示例

Scaler = StandardScaler()
Scaler.fit(data)
Scaler.mean_ 查看均值的属性 fit后使用不能使用fit_transform
Scaler.var_ 查看方差 fit后使用不能使用fit_transform

MaxAbsScaler
只进行缩放不中心化
不会破坏数据集的稀疏性

其他数据处理方式
在这里插入图片描述

加粗样式-----------------------------------------------------------------------------------------------------

缺失值处理

常用库
from sklearn.impute import SimpleImputer

SimpleImputer参数

missing_values
确定缺失值的数值或者字符如默认值为np.nan

startegy
填补缺失值的策略默认为均值

‘mean’ ‘median’ ‘most_frequent’ 众数
‘constant’ 配合fill_calue参数一起使用表示固定数值填补缺失值 fill_value = 固定的数值

copy
布尔值参数
默认为True 会创建特征矩阵的副本不会修改原特征矩阵

处理分类特征编码与哑变量

常用库
from sklearn.preprocessing import LabelEncoder,OrdinalEncoder,OneHotEncoder,Binarizer

LabelEncoder
将分类字符串类型数据转换成分类数值型数据

具体操作
#实例化
le = LabelEncoder()
#输入数据拟合
le = le.fit(y)
le.classes_ 返回类别数据
#输出数据
res = le.transoform(y)
#逆转
data = le.inverse_transform(res)

简洁写法
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

特征专用————不能使用一维数据需要转换成高维 .reshape(-1,1)
OrdinalEncoder
特征专用能将分类特种转换成分类数值

具体操作
#实例化
le =OrdinalEncoder()
#输入数据拟合
le = le.fit(y)
le.categories_ 返回类别数据
#输出数据
res = le.transoform(y)
#逆转
data = le.inverse_transform(res)

简洁写法
data.iloc[:,-1] = OrdinalEncoder().fit_transform(data.iloc[:,-1])

OneHotEncoder——独热编码创建哑变量

具体操作
o_hot = OneHotEncoer(categories = ‘auto’).fit(X）
重要属性
o_hot.categories_
res = o_hot.transform(X).toarray() #转换成数组类型
#获取具体列名
res.get_feature_names() #会返回x0类1 x0类2 x1类1 x2类2 类似列名