sklearn学习-数据预处理

最新推荐文章于 2023-09-16 22:39:03 发布

育林

最新推荐文章于 2023-09-16 22:39:03 发布

阅读量118

点赞数

文章标签： sklearn 学习 python

本文链接：https://blog.csdn.net/weixin_42856170/article/details/128732737

版权

文章目录

一、归一化
二、处理分类型特征：编码与哑变量
三、处理连续型特征：二值化与分段
- sklearn.preprocessing.Binarizer
- preprocessing.KBinsDiscretizer
总结

一、归一化

在这里插入图片描述

二、处理分类型特征：编码与哑变量

preprocessing.LabelEncoder：标签专用，能够将分类转换为分类数值

在这里插入图片描述

preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数值

在这里插入图片描述

preprocessing.OneHotEncoder：独热编码，创建哑变量

我们刚才已经用OrdinalEncoder把分类变量Sex和Embarked都转换成数字对应的类别了。在舱门Embarked这一列中，我们使用[0,1,2]代表了三个不同的舱门，然而这种转换是正确的吗？
我们来思考三种不同性质的分类数据：
1）舱门（S，C，Q）
三种取值S，C，Q是相互独立的，彼此之间完全没有联系，表达的是S≠C≠Q的概念。这是名义变量。
2）学历（小学，初中，高中）
三种取值不是完全独立的，我们可以明显看出，在性质上可以有高中>初中>小学这样的联系，学历有高低，但是学历取值之间却不是可以计算的，我们不能说小学 + 某个取值 = 初中。这是有序变量。
3）体重（>45kg，>90kg，>135kg）
各个取值之间有联系，且是可以互相计算的，比如120kg - 45kg = 90kg，分类之间可以通过数学计算互相转换。这是有距变量。
然而在对特征进行编码的时候，这三种分类数据都会被我们转换为[0,1,2]，这三个数字在算法看来，是连续且可以计算的，这三个数字相互不等，有大小，并且有着可以相加相乘的联系。所以算法会把舱门，学历这样的分类特征，都误会成是体重这样的分类特征。这是说，我们把分类转换成数字的时候，忽略了数字中自带的数学性质，所=以给算法传达了一些不准确的信息，而这会影响我们的建模。=类别OrdinalEncoder可以用来处理有序变量，但对于名义变量，我们只有使用哑变量的方式来处理，才能够尽量
向算法传达最准确的信息：
在这里插入图片描述

三、处理连续型特征：二值化与分段

sklearn.preprocessing.Binarizer

根据阈值将数据二值化（将特征值设置为0或1），用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作，分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤（例如，使用贝叶斯设置中的伯努利分布建模）
在这里插入图片描述