机器学习过程中遇见过的pandas库函数记录与总结

1.pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

该函数通常用于将样本中的离散变量进行编码的场景中:

(1)data即为需要转换的离散变量,包括数组,序列,datdaframe

(2)prefix为: string, list of strings, or dict of strings, default None

该变量是用于追加在dataframe列名的,调用get_dummies时,传递一个长度等于列数的列表。

(3)prefix_sep顾名思义就是分隔符

(4)dummy_na:bool, default False

默认是false,如果离散变量中有无穷项,false情况下编码会忽视无穷

如果为true的话编码会考虑无穷项

(5)columns : list-like, default None

用于指定列编码,如果为none则对转换对象的所有进行编码

(6)drop_first:bool, default False

除去第一个离散类别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值