sklearn中的几种二值化编码函数：OneHotEncoder, LabelEncoder , LabelBinarizer

最新推荐文章于 2022-12-20 21:38:39 发布

蜘蛛侠不会飞

最新推荐文章于 2022-12-20 21:38:39 发布

阅读量5.3k

点赞数 5

分类专栏：数据挖掘与人工智能文章标签： OneHotEncoder LabelEncoder LabelBinarizer 数据预处理二值化

本文链接：https://blog.csdn.net/qq_40587575/article/details/81118610

版权

数据挖掘与人工智能专栏收录该内容

65 篇文章 34 订阅

订阅专栏

1.自定义一些简单的数据集

定义3个特征， age 和 salary 都是数值型， pet 是字符串型

#coding=gbk
#几种sklearn 中的二值化编码函数，
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import LabelBinarizer
from sklearn.preprocessing import MultiLabelBinarizer

columns = ['pet','age','salary']
data = pd.DataFrame([['cat','dog','dog','fish'],[4,6,3,3],[4,5,1,1]])
data = data.T   #对二维数组进行转置
data.columns = columns
print(data)
#     pet age salary
# 0   cat   4      4
# 1   dog   6      5
# 2   dog   3      1
# 3  fish   3      1

2.对数值型变量二值化

使用OneHotEncoder 函数

注意： sklearn 的新版本中，OneHotEncoder 的输入必须是 2-D array

#1. OneHotEncoder 独热编码的使用
#True 则返回一个array， False 则返回matrix矩阵
onehot_age = OneHotEncoder(sparse=False).fit_transform(data[['age']]) 
 
print(data['age'].shape)    #(4,)
print(data[['age']].shape)  #(4, 1)
#由于 OneHotEncoder 的编码必须是 2-D array ，而data.age 即 data['age']返回的是 1-D array，所以要改成上述的双中括号
print(onehot_age)
# [[0. 1. 0.]
#  [0. 0. 1.]
#  [1. 0. 0.]
#  [1. 0. 0.]]

onehot_salary = OneHotEncoder(sparse= False)._fit_transform(data[['salary']])   #两个输出都是一样的
output = np.hstack((onehot_age, onehot_salary))  #记住括号是双括号,使其在列上合并
print(output)
# [[0. 1. 0. 0. 1. 0.]
#  [0. 0. 1. 0. 0. 1.]
#  [1. 0. 0. 1. 0. 0.]
#  [1. 0. 0. 1. 0. 0.]]
# onehot_pet = OneHotEncoder(sparse=False).fit_transform(data[['pet']]) 不能直接对字符串的类别进行编码
test = OneHotEncoder(sparse=False).fit_transform(data[['age','salary']])
print(test) #可以同时输入两个特征值,可以接受多列输入
# [[0. 1. 0. 0. 1. 0.]
#  [0. 0. 1. 0. 0. 1.]
#  [1. 0. 0. 1. 0. 0.]
#  [1. 0. 0. 1. 0. 0.]]

3.对字符型变量二值化

注意：OneHotEncoder无法直接对字符串型的类别变量编码

无论 LabelEncoder() 还是 LabelBinarizer()，他们在 sklearn 中的设计初衷，都是为了解决标签 y的离散化，而非输入X，所以他们的输入被限定为 1-D array，这恰恰跟OneHotEncoder() 要求输入 2-D array 相左。

方法一先用 LabelEncoder() 转换成连续的数值型变量，再用 OneHotEncoder() 二值化
* 方法二直接用 LabelBinarizer() 进行二值化

#2,对字符串类型二值化
#方法1 使用 LabelEncoder + OneHotEncoder
le_pet = LabelEncoder().fit_transform(data.pet)
print(le_pet)   #[0 1 1 2]
print(le_pet.shape) # (4,) 是一维数组
print(le_pet.reshape(-1,1).shape) # (4, 1) 将其转换成 4 行 1列
oe_pet = OneHotEncoder(sparse=False).fit_transform(le_pet.reshape(-1,1))
print(oe_pet)
# [[1. 0. 0.]
#  [0. 1. 0.]
#  [0. 1. 0.]
#  [0. 0. 1.]]

#方法2 直接使用 labelBinarizer ，设计是为了解决y 的离散化的
lb_pet = LabelBinarizer().fit_transform(data.pet)
print(lb_pet)   #同样可以得到同样的输出,只是 dtype 不相同
# [[1 0 0]
#  [0 1 0]
#  [0 1 0]
#  [0 0 1]]

print('-----')
mb = MultiLabelBinarizer().fit_transform(data[['age','salary']].values)
print(mb)
# [[0 0 1 0 0]
#  [0 0 0 1 1]
#  [1 1 0 0 0]
#  [1 1 0 0 0]]

4使用 pandas 自带的 get_dummies 函数

#使用 pandas 自带的 get_dummies 函数
gd = pd.get_dummies(data, columns = columns)
print(gd)
#  pet_cat  pet_dog  pet_fish  age_3  age_4  age_6  salary_1  salary_4  \ .....
# 0        1        0         0      0      1      0         0         1   
# 1        0        1         0      0      0      1         0         0   
# 2        0        1         0      1      0      0         1         0   
# 3        0        0         1      1      0      0         1         0

get_dummies的优势：
* 1.本身就是 pandas 的模块，所以对 DataFrame 类型兼容很好.
* 2.无论你的列是字符型还是数字型都可以进行二值编码.
* 3.能根据用户指定，自动生成二值编码后的变量名.

get_dummies无法像 sklearn 的transformer一样可以输入到pipeline中进行流程化地机器学习过程，而且get_dummies 不像 sklearn 的 transformer一样，有 transform方法，所以一旦测试集中出现了训练集未曾出现过的特征取值，简单地对测试集、训练集都用 get_dummies 方法将导致数据错误。