【机器学习】特征工程多特征值序列化数值化独热编码处理(LabelEncoder, pd.factorize())

最新推荐文章于 2024-05-15 11:02:20 发布

置顶

白糖炒栗子~

最新推荐文章于 2024-05-15 11:02:20 发布

阅读量5.4k

点赞数 5

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/weixin_41571493/article/details/82714759

版权

多特征值序列化数值化独热编码处理

当我们在运用某些模型时，比如在Scikit-learn中，它要求数据都得是numberic（数值型），若是文本类型就无法进行训练。

那么在这种情况下，我们就应该先对数据进行序列化数值化：

下面是几种在Python中数值化的方法：

1. 自然数编码 : a) 使用sklearn中的LabelEncoder()方法,转换为数值型特征

b) 使用pd.factorize()函数

2. 独热编码（one-hot encoding）：生成一个(n_examples * n_classes)大小的0~1矩阵，每个样本仅对应一个label

a) 使用pandas中的get_dummies实现

b) 使用OneHotEncoder() , LabelEncoder() , LabelBinarizer() 这些方法

自然数编码

a）LabelEncoder()方法

在所有事情开始之前，我们先引入最常用的两个包：

import pandas as pd
import numpy as np

fruit_data = pd.DataFrame({
    'fruit':  ['apple','orange','pear','orange'],
    'color':  ['red','orange','green','green'],
    'weight': [5,6,3,4]
})

   fruit   color  weight
0   apple     red       5
1  orange  orange       6
2    pear   green       3
3  orange   green       4

现在想要将‘fruit’和‘color’列的数据进行序列化数值化，我们可以用LabelEncoder()方法这么做：

from sklearn.preprocessing import LabelEncoder
fruit_data[['fruit','color']]=fruit_data[['fruit','color']].apply(LabelEncoder().fit_transform)

    fruit  color  weight
0      0      2       5
1      1      1       6
2      2      0       3
3      1

最低0.47元/天解锁文章

白糖炒栗子~

关注

5
点赞
踩
36

收藏

觉得还不错? 一键收藏
2
评论
【机器学习】特征工程多特征值序列化数值化独热编码处理(LabelEncoder, pd.factorize())

多特征值序列化数值化独热编码处理当我们在运用某些模型时，比如在Scikit-learn中，它要求数据都得是numberic（数值型），若是文本类型就无法进行训练。那么在这种情况下，我们就应该先对数据进行序列化数值化：下面是几种在Python中数值化的方法：1. 自然数编码 : a) 使用sklearn中的LabelEncoder()方法,转换为数值型特征 ...
复制链接

扫一扫