数据预处理之“分类”数据离散化

158 篇文章 2 订阅
75 篇文章 10 订阅

大多数机器学习算法不能识别类别数据,要求数据必须是数值型的,故作为一名合格的MLer必须对相应转换方法有所了解。

以性别为例,性别特征具有两个选项:男或女,机器学习模型搞不懂何为“男 、女”,但清楚何为“1、0”。直观的做法,将“男、女”对“1、0”进行映射,即 sex(0,1) ,但这种做法存在一个明显的缺陷,即“0 、1”具有大小可比性,而实际中sex只是一个标称属性,不应具有“数学”意义,故比较合理的做法是将sex特征拆成两个特征,“是否男”与“是否女”。不扯淡了,进入正题,如果一个用户的sex为男,则应表示为(1,0),否则表示为(0,1)。

总结:分类数据离散化的核心就是将m个取值的类别属性转化为m个特征,如果具有某个属性,则代表该属性的特征表示为1,其他为0。

Python实现,借助sklearn包中的LabelEncoder与OneHotEncoder 
LabelEncoder负责将类别数据标签化,如”女”->0,“男”->1 
OneHotEncoder负责将标签属性离散化,如将一个属性拆成俩特征,0->(0,1), 1->(1,0)

代码如下:

import numpy 
import pandas 
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
# load datatest
X = pandas.read_csv('titanic_data.csv')
# choose cateforical data
X = X.select_dtypes(include=[object])
# create a LabelEncoder
le = LabelEncoder()
# data label
temp=pandas.DataFrame()
for feature in X:
    value = le.fit_transform(X[feature].values)
    temp[feature] = pandas.Series(value)
X=temp
# create a OneHotEncoder
enc = OneHotEncoder()
# data discretization
enc.fit(X)
X= enc.transform(X)
   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21

参考

[1]. LabelEncoder. 
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html 
[2]. OneHotEncoder. 
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

0
 
0
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值