处理分类型特征

最新推荐文章于 2022-09-03 08:42:16 发布

Aries_楊小欣�

最新推荐文章于 2022-09-03 08:42:16 发布

阅读量493

点赞数

分类专栏：统计学(11.4-2.22)每周更新

本文链接：https://blog.csdn.net/Aries_yang/article/details/103219154

版权

统计学(11.4-2.22)每周更新专栏收录该内容

6 篇文章 0 订阅

订阅专栏

类别型特征的原始数据一般都是字符串形式，只有决策树等少数模型可以处理字符串的输入，对于传统的模型来说，类别型特征必须经过处理转成数值型特征。

处理方式有三种：

一、序号编码：用于处理类别间具有大小关系的数据。

二、独热编码：稀疏向量

三、二进制编码：第一步：给每个类别赋予ID，第二步：对ID进行二进制编码。优点：维数少，节省空间。

独热编码的python实现：

from sklearn.feature_extraction import DictVectorizer one hot_encoder = DictVectorizer()
x = [
    {'city':'New York'},
    {'city':'San Francisco'},
    {'city':'Chapel Hill'}
    ]
onehot_encoder.fit_transform(X).toarray())

优惠劵

Aries_楊小欣�

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
处理分类型特征

类别型特征的原始数据一般都是字符串形式，只有决策树等少数模型可以处理字符串的输入，对于传统的模型来说，类别型特征必须经过处理转成数值型特征。处理方式有三种：一、序号编码：用于处理类别间具有大小关系的数据。二、独热编码：稀疏向量三、二进制编码：第一步：给每个类别赋予ID，第二步：对ID进行二进制编码。优点：维数少，节省空间。独热编码的python实现：from ...
复制链接

扫一扫