[Python中pandas实现独热编码][pd.get_dummies()函数]

快速理解
独热编码前,存在1列x3行的数据:
1列的列名称为: 动物名称
3行中第1行的值为:      猫
3行中第2行的值为:      狗
3行中第3行的值为:      猫
独热编码后,变为2列x3行的数据,第一列是猫,第二列是狗
2列的列名称分别为:猫,狗
3行中第1行的值变为:1,0
3行中第2行的值变为:0,1
3行中第3行的值变为:1,0

选择题
以下关于pandas库中pd.get_dummies()函数说法错误的是:
选项:
A 可以对Dataframe中字段类型是Object的列进行独热编码
B 可以对Dataframe中字段类型是数值型的列进行独热编码
C 一般会使特征的维度数增加
D 在数据预处理阶段可能会用到该函数

问题解析
1.pd.get_dummies()函数:是pandas库中实现独热编码的函数,请看上述快速理解的例子,独热编码的主要思想是将一个分类变量多种取值(A、B、C……)的列,替换多个列(列名为:A、B、C……),每一行的值从原来的A、B、C……变换为0或者1,因为计算机更擅长处理0或1;
2.A,B选项,pd.get_dummies()函数会将Dataframe中字段类型是Object的列独热编码,而字段类型是数值型的列不进行独热编码。pd.get_dummies()函数主要是对具有离散特征的数据进行独热编码,而具有连续类型的数据不进行独热编码,age列和name列的字段类型分别为float64和Object,见图1,所以age列没有进行独热编码,name进行了独热编码,见图2;
3.C选项,独热编码会将一个多值(A、B、C……)的列,替换为多列(列名为:A、B、C……),所以一般会使特征的维度数增加。
4.D选项,数据预处理包括数据清洗、数据集成、数据变换和数据规约四个步骤,独热编码是在数据变换阶段采取的一种方法,所以在数据预处理阶段可能会用到该函数。

答案
本题正确答案为:B

温馨期待
期待大家提出宝贵建议,互相交流,收获更大,助教:qmy

迎大家转发,一起传播知识和正能量,帮助到更多人。期待大家提出宝贵改进建议,互相交流,收获更大。辛苦大家转发时注明出处(也是咱们公益编程交流群的入口网址),刘经纬老师共享知识相关文件下载地址为:http://liujingwei.cn

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刘经纬老师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值