数据预处理各章节练习
题量: 71
快捷查找:Ctrl+F 在搜索框中输入题目
一. 单选题(共28题)
1. 下列关于为什么要做数据清理描述错误的是
A. 数据有重复
B. 数据有错误
C. 数据有缺失
D. 数据量太大
正确答案: D:数据量太大 ;
2. 影响数据质量问题的因素有哪些
A. 准确性、完整性、一致性
B. 相关性、时效性
C. 可信性、可解释性
D. 以上都是
正确答案: D:以上都是 ;
3. 数据集成的方法有
A. 联邦数据库
B. 中间件集成
C. 数据复制
D. 以上都是
正确答案: D:以上都是 ;
4. ()是将数据行依次发给每一个输出跳,()是将全部数据行发送给所有输出跳
A. 复制发送、轮流发送
B. 轮流发送、复制发送
C.单次发送,多次发送
D. 多次发送,单次发送
正确答案: B:轮流发送、复制发送 ;
5. 数据集成的过程中需要处理的问题有
A. 实体识别
B. 冗余与相关性分析
C. 数据冲突和检测
D. 以上都是
正确答案: D:以上都是 ;
6. 处理噪声的方法一般有
A. 分箱
B. 回归
C. 聚类
D. 以上都是
正确答案: D:以上都是;
7. 跳定义了一个(),允许数据从一个步骤向另一个步骤流动
A. 单向通道
B. 双向通道
C. 方向
D. 队列
正确答案: A:单向通道 ;
8. 假定属性income的最小与最大值分别为25000和3000,根据最小—最大规范化方法将income 10000映射到[0,1]范围内,值为()。
A. 0.318
B. 0.325
C. 0.4
D. 0.5
正确答案: A:0.318;
9. 数据归约的方法有
A. 维归约
B. 数量归约
C. 数据压缩
D. 以上都是
正确答案: D:以上都是 ;
10. 从程序执行的角度看,()实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为()
A. 箭头、队列
B. 连线、内存
C. 跳、行集
D. 连接、行集
正确答案: C:跳、行集 ;
11. 以下说法错误的是
A. 数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.
B. 数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。
C. 冗余数据的删除既是一种数据清理形式,也是一种数据归约
D. 整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。
正确答案: B:数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。
12. 转换里的步骤通过()来连接
A. 箭头
B. 跳
C. 连线
D. 队列
正确答案: B:跳;