第三单元数据预处理

最新推荐文章于 2022-11-15 11:30:10 发布

拙小拙

最新推荐文章于 2022-11-15 11:30:10 发布

阅读量2.6k

点赞数 1

分类专栏： # 详细答案

原文链接：https://ww.badu.com

版权

详细答案专栏收录该内容

8 篇文章 8 订阅

订阅专栏

第三单元数据预处理

运行以下代码
from sklearn.datasets import load_iris
iris_data = load_iris()
iris_data.data.shape
输出结果为(150, 4)。则表示iris数据集包括样本个数为（）。
A.154
B.600
C.4
D.150
在Numpy包中，计算标准差的函数为（）。
A.numpy.mean()
B.numpy.var()
C.numpy.median()
D.numpy.std()
给定df是一个DataFrame对象，对df所有字段进行描述性统计，可以利用的方法为（）。
A.df.describe()
B.df.mean()
C.df.statistics()
D.df.summary()
运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制饼状图，需要利用的函数为（）。
A.plt.plot()
B.plt.pie()
C.plt.bar()
D.plt.hist()
运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制折线图，需要利用的函数为（）。
A.plt.hist()
B.plt.pie()
C.plt.plot()
D.plt.bar()
运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制直方图，需要利用的函数为（）。
A.plt.pie()
B.plt.hist()
C.plt.plot()
D.plt.bar()
运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制散点图，需要利用的函数为（）。
A.plt.bar()
B.plt.hist()
C.plt.scatter()
D.plt.plot()
使用最小-最大法进行数据规范化，需要映射的目标区间为[0,100]，原来的取值范围是[-10,10]。根据等比映射的原理，一个值8映射到新区间后的值是（）。
A.95
B.80
C.85
D.90
使用等距离分箱法进行数据离散化，数据范围为20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200，区间个数为4。下列属于4个箱的区间是（）。
A.(65,110)
B.(155,200]
C.[20,65]
D.[110,155)
特征选择方法中，一般的启发式方法有（）。
A.随机选择
B.逐步增加法
C.逐步递减法
D.以上都是
关联规则的挖掘算法只能处理（）类型的取值，为此（）是继续其知识发现过程的必要步骤。
A.连续；数据规范化
B.离散；数据离散化
C.离散；数据规范化
D.连续；数据离散化
（）是指对描述对象的属性进行重新组合，获得一组反映事物本质的少量的新的属性的过程。（）是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。
A.特征提取；特征选择
B.特征选择；特征提取
C.数据选择；数据提取
D.数据提取；数据选择
下列不属于数据预处理原因的是（）。
A.数据可能存在缺失、错误、不一致等问题
B.数据量过于庞大
C.有些数据属性是无用的或者冗余的
D.数据有可能不能很好地反映潜在的模式
缺失值处理方法中错误的是（）。
A.对于分类属性，使用同类对象属性值的均值
B.转换为分类问题或数值预测问题
C.对于所有属性都可以使用均值
D.对于离散属性或定性属性，使用众数
主成分分析的步骤是（）。
A.中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集
B.中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集
C.计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集
D.计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集
下列关于等距离分箱的说法中错误的是（）。
A.等距离分箱可能导致属于某些的取值非常多，而某些又非常少
B.又称为等宽度分箱
C.若区间个数为k，每个区间的间距为I=(max-min)/k
D.等距离分箱能使每个区间内包含的取值个数大致相同
使用python处理缺失值的方法中叙述错误的是（）。
A.dropna()删除缺失值
B.fillna()填充缺失值
C.interpolate()使用中位数填充缺失值
D.isnull()判断缺失值
最小最大规范化方法MinMaxScaler属于python中的哪个包（）。
A.scipy
B.sklearn
C.numpy
D.pandas
主成分分析方法PCA属于属于python中的哪个包（）。
A.scipy
B.sklearn
C.numpy
D.pandas
最小-最大法中，假设需要映射到目标区间为[L,R ]，原来的取值范围为[l, r ]。一个值x映射到新区间后的值v的计算方法是（）
在利用中文文本绘制词云时，需要在anaoncda的基础上安装哪些工具包（）。
A.Scikit-learn
B.Matplotlib
C.Wordcloud
D.Jieba
数据清洗的主要目的是将数据集中存在的（）和（）进行处理，降低其对后续数据分析处理的影响。
A.最大值
B.噪声
C.最小值
D.缺失
有监督的离散化方法常用的有分箱法和ChiMerge方法。×
基于熵的方法可以被看做是自顶向下的分裂方法，ChiMerge则属于自底向上的合并方法。√
一种简单的填补缺失值的方法为, 将属于同一类的对象的该属性值的均值赋予此缺失值。√
基于熵的离散化方法是常用的有监督的离散化方法。√
将数据分为n个等频的箱中，可以⽤箱均值、箱中位数或箱边界光滑数据。√
在主成分分析中，每个主成分都是原始变量的线性组合，且各个主成分之间互不相关。√
等距离分箱可能导致属于某些区间的取值非常多，而某些区间的取值又非常少。等频则能够解决此问题。
使用主成分分析法进行数据属性特征提取中，每个新的特征是原有特征的 线性组合。