数据数值转换factorize和dummy

数据的数值转换有两种方式:

1. factorize

API:

 pandas.factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None) 

将对象编码为枚举类型或分类变量。

输入参数:

values: 一维数据序列

sort: 为数据加标签的时候需不需要保持原有数据的大小关系,默认False

na_sentinel: 对于没有找到数据的赋予的标签,默认-1

返回:

labels和uniques,一般使用的是labels,因此在factorize得到的数据要写上第几维数据。

pd.factorize()[0]

2. dummy

API:

 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False,drop_first=False, dtype=None)

 Convert categorical variable into dummy/indicator variables 

输入参数:

prefix: 转换成dummy类型后新增加特征的名字前缀

具体这两种转换方法对于最后的结果有什么影响还没有试过,等豆桑把titanic程序看完了实验一下。

其实就豆桑自己分析的话,由于factorize后的数据不是归一化的,而get_dummies后的数据都是0和1,不需要再进行归一化,因此豆桑觉得可能更多地应用会是get_dummies。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值