独热编码（One-Hot Encoding）和 LabelEncoder标签编码区别数据预处理：（机器学习） sklearn

海洋之心

已于 2022-11-27 10:11:38 修改

阅读量4.4k

点赞数 7

分类专栏： AI 机器学习知识积累文章标签： python 人工智能数据分析深度学习

于 2021-02-11 10:59:04 首次发布

本文链接：https://blog.csdn.net/m0_47256162/article/details/113788166

版权

机器学习知识积累同时被 2 个专栏收录

79 篇文章 101 订阅

订阅专栏

33 篇文章 3 订阅

订阅专栏

🌠 『精品学习专栏导航帖』

🐳最适合入门的100个深度学习实战项目🐳
🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码🐙
🐶【机器学习入门项目10例目录】项目详解 + 数据集 + 完整源码🐶
🦜【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码🦜
🐌Java经典编程100例🐌
🦋Python经典编程100例🦋
🦄蓝桥杯历届真题题目+解析+代码+答案🦄
🐯【2023王道数据结构目录】课后算法设计题C、C++代码实现完整版大全🐯

文章目录

✌ 独热编码和 LabelEncoder标签编码

✌ 独热编码和 LabelEncoder标签编码

1、✌ 介绍

对于一些特征工程，我们有时会需要使用OneHotEncoder和LabelEncoder两种编码
这是为了解决一些非数字分类问题。
比如说对于性别这个分类：male和female。这两个值可见是不能放入模型中的，所以就需要将其编码成数字。
例如：

特征	编码
男	1
女	0
女	0
男	1
女	0
男	1

对于LabelEncoder会将其转化成0、1这种数值分类，如果有三类就会变成0、1、2。

而利用OneHotEncoder就会转化成矩阵形式

特征	Sex_男	Sex_女
男	1	0
女	0	1
女	0	1
男	1	0
女	0	1
男	1	0

那么问题来了这两种方法都可以进行编码，有什么区别吗？

使用LabelEncoder该特征仍是一维，但是会产生0、1、2、3这种编码数字
OneHotEncoder会产生线性无关的向量
如果对于红色、蓝色、绿色来说，编码后会产生0、1、2，这是就会产生新的数学关系，如绿色大于红色，绿色和红色的均值为蓝色，而这些类别是相互独立的类别，在转化之前是没有这些关系的。
但如果用OneHotEncoder，会产生多个线性无关的向量，解决了那种关系的问题，但是这样如果类别较多时，会使特征维度大大升高，造成资源浪费和运算时间长、矩阵过于稀疏等问题，但有些时候可以联系PCA进行使用。

2、✌ 代码测试

2.1 ✌ 导入相关库

import numpy as np
import pandas as pd
# 导入SVC模型
from sklearn.svm import SVC
# 导入评分指标
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
# 编码库
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
# 交叉验证
from sklearn.model_selection import cross_val_score

2.2 ✌ 读取数据

在这里插入图片描述

data=pd.read_csv('Narrativedata.csv',index_col=0)
data

2.3 ✌ 查看缺失值

在这里插入图片描述

data.isnull().sum()

2.4 ✌ 利用中位数填补年龄

在这里插入图片描述

data['Age'].fillna(data['Age'].median(),inplace=True)
data.isnull().sum()

2.5 ✌ 删除Embarked的缺失行

在这里插入图片描述

data.dropna(inplace=True)
data.isnull().sum()

2.6 ✌ 查看每个特征的类别

在这里插入图片描述

display(np.unique(data['Sex']))
display(np.unique(data['Embarked']))
display(np.unique(data['Survived']))

x=data.drop(columns=['Survived'])
y=data['Survived']

2.7 ✌ 对标签进行LabelEncoder编码

在这里插入图片描述

from sklearn.preprocessing import LabelEncoder
y=LabelEncoder().fit_transform(y)
y

2.8 ✌ 利用pandas的哑变量处理

在这里插入图片描述

y=data['Survived']

y=pd.get_dummies(y)
y

2.9 ✌ 对特征进行哑变量处理

在这里插入图片描述

x=pd.get_dummies(x.drop(columns=['Age']))
x

2.10 ✌ 对特征进行独热编码

在这里插入图片描述

from sklearn.preprocessing import OneHotEncoder

x=data.drop(columns=['Survived','Age'])
x=OneHotEncoder().fit_transform(x).toarray()
pd.DataFrame(x)

2.11 、✌ 模型测试

2.11.1 ✌ 独热编码

x=data.drop(columns=['Age','Survived'])
y=data['Survived']
x=pd.get_dummies(x)
x['Age']=data['Age']
y=LabelEncoder().fit_transform(y)
# 模型测试
for kernel in ["linear","poly","rbf","sigmoid"]:
    clf = SVC(kernel = kernel
                ,gamma="auto"
                ,degree = 1
                ,cache_size = 5000
                )
    score=cross_val_score(clf,x,y,cv=5,scoring='accuracy').mean()
    print('{:10s}:{}'.format(kernel,score))

在这里插入图片描述

2.11.2 ✌ LabelEncoder编码

x=data.drop(columns=['Age','Survived'])
y=data['Survived']
df=pd.DataFrame()
# 循环拼接特征矩阵
for i in x.columns:
    df=pd.concat([df,pd.DataFrame(LabelEncoder().fit_transform(x[i]))],axis=1)    
y=LabelEncoder().fit_transform(y)
for kernel in ["linear","poly","rbf","sigmoid"]:
    clf = SVC(kernel = kernel
                ,gamma="auto"
                ,degree = 1
                ,cache_size = 5000
                )
    score=cross_val_score(clf,df,y,cv=5,scoring='accuracy').mean()
    print('{:10s}:{}'.format(kernel,score))