《大数据预处理技术》课后习题

数据预处理各章节练习

题量: 71 

快捷查找:Ctrl+F   在搜索框中输入题目

一. 单选题(共28题)

1.  下列关于为什么要做数据清理描述错误的是

A. 数据有重复

B. 数据有错误

C. 数据有缺失

D. 数据量太大

正确答案: D:数据量太大 ;

2.  影响数据质量问题的因素有哪些

A. 准确性、完整性、一致性

B. 相关性、时效性

C. 可信性、可解释性

D. 以上都是

正确答案: D:以上都是 ;

3.  数据集成的方法有

A. 联邦数据库

B. 中间件集成

C. 数据复制

D. 以上都是

正确答案: D:以上都是 ;

4.  ()是将数据行依次发给每一个输出跳,()是将全部数据行发送给所有输出跳

A. 复制发送、轮流发送

B. 轮流发送、复制发送

C.单次发送,多次发送

D. 多次发送,单次发送

正确答案: B:轮流发送、复制发送 ;

5.  数据集成的过程中需要处理的问题有

A. 实体识别

B. 冗余与相关性分析

C. 数据冲突和检测

D. 以上都是

 正确答案: D:以上都是 ;

6.  处理噪声的方法一般有

A. 分箱

B. 回归

C. 聚类

D. 以上都是

正确答案: D:以上都是;

7.  跳定义了一个(),允许数据从一个步骤向另一个步骤流动

A. 单向通道

B. 双向通道

C. 方向

D. 队列

正确答案: A:单向通道 ;

8.  假定属性income的最小与最大值分别为25000和3000,根据最小—最大规范化方法将income 10000映射到[0,1]范围内,值为()。

A. 0.318

B. 0.325

C. 0.4

D. 0.5

正确答案: A:0.318;

9.  数据归约的方法有

A. 维归约

B. 数量归约

C. 数据压缩

D. 以上都是

正确答案: D:以上都是 ;

10.  从程序执行的角度看,()实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为()

A. 箭头、队列

B. 连线、内存

C. 跳、行集

D. 连接、行集

正确答案: C:跳、行集 ;

11.  以下说法错误的是

A. 数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.

B. 数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。

C. 冗余数据的删除既是一种数据清理形式,也是一种数据归约

D. 整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。

正确答案: B:数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。 

12.  转换里的步骤通过()来连接

A. 箭头

B. 跳

C. 连线

D. 队列

正确答案: B:跳;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值