快速理解
独热编码前,存在1列x3行的数据:
1列的列名称为: 动物名称
3行中第1行的值为: 猫
3行中第2行的值为: 狗
3行中第3行的值为: 猫
独热编码后,变为2列x3行的数据,第一列是猫,第二列是狗
2列的列名称分别为:猫,狗
3行中第1行的值变为:1,0
3行中第2行的值变为:0,1
3行中第3行的值变为:1,0
选择题
以下关于pandas库中pd.get_dummies()函数说法错误的是:
选项:
A 可以对Dataframe中字段类型是Object的列进行独热编码
B 可以对Dataframe中字段类型是数值型的列进行独热编码
C 一般会使特征的维度数增加
D 在数据预处理阶段可能会用到该函数
问题解析
1.pd.get_dummies()函数:是pandas库中实现独热编码的函数,请看上述快速理解的例子,独热编码的主要思想是将一个分类变量多种取值(A、B、C……)的列,替换多个列(列名为:A、B、C……),每一行的值从原来的A、B、C……变换为0或者1,因为计算机更擅长处理0或1;
2.A,B选项,pd.get_dummies()函数会将Dataframe中字段类型是Object的列独热编码,而字段类型是数值型的列不进行独热编码。pd.get_dummies()函数主要是对具有离散特征的数据进行独热编码,而具有连续类型的数据不进行独热编码,age列和name列的字段类型分别为float64和Object,见图1,所以age列没有进行独热编码,name进行了独热编码,见图2;
3.C选项,独热编码会将一个多值(A、B、C……)的列,替换为多列(列名为:A、B、C……),所以一般会使特征的维度数增加。
4.D选项,数据预处理包括数据清洗、数据集成、数据变换和数据规约四个步骤,独热编码是在数据变换阶段采取的一种方法,所以在数据预处理阶段可能会用到该函数。
答案
本题正确答案为:B
温馨期待
期待大家提出宝贵建议,互相交流,收获更大,助教:qmy
迎大家转发,一起传播知识和正能量,帮助到更多人。期待大家提出宝贵改进建议,互相交流,收获更大。辛苦大家转发时注明出处(也是咱们公益编程交流群的入口网址),刘经纬老师共享知识相关文件下载地址为:http://liujingwei.cn