《大数据预处理技术》课后习题

数据预处理各章节练习

题量: 71 

快捷查找:Ctrl+F   在搜索框中输入题目

一. 单选题(共28题)

1.  下列关于为什么要做数据清理描述错误的是

A. 数据有重复

B. 数据有错误

C. 数据有缺失

D. 数据量太大

正确答案: D:数据量太大 ;

2.  影响数据质量问题的因素有哪些

A. 准确性、完整性、一致性

B. 相关性、时效性

C. 可信性、可解释性

D. 以上都是

正确答案: D:以上都是 ;

3.  数据集成的方法有

A. 联邦数据库

B. 中间件集成

C. 数据复制

D. 以上都是

正确答案: D:以上都是 ;

4.  ()是将数据行依次发给每一个输出跳,()是将全部数据行发送给所有输出跳

A. 复制发送、轮流发送

B. 轮流发送、复制发送

C.单次发送,多次发送

D. 多次发送,单次发送

正确答案: B:轮流发送、复制发送 ;

5.  数据集成的过程中需要处理的问题有

A. 实体识别

B. 冗余与相关性分析

C. 数据冲突和检测

D. 以上都是

 正确答案: D:以上都是 ;

6.  处理噪声的方法一般有

A. 分箱

B. 回归

C. 聚类

D. 以上都是

正确答案: D:以上都是;

7.  跳定义了一个(),允许数据从一个步骤向另一个步骤流动

A. 单向通道

B. 双向通道

C. 方向

D. 队列

正确答案: A:单向通道 ;

8.  假定属性income的最小与最大值分别为25000和3000,根据最小—最大规范化方法将income 10000映射到[0,1]范围内,值为()。

A. 0.318

B. 0.325

C. 0.4

D. 0.5

正确答案: A:0.318;

9.  数据归约的方法有

A. 维归约

B. 数量归约

C. 数据压缩

D. 以上都是

正确答案: D:以上都是 ;

10.  从程序执行的角度看,()实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为()

A. 箭头、队列

B. 连线、内存

C. 跳、行集

D. 连接、行集

正确答案: C:跳、行集 ;

11.  以下说法错误的是

A. 数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.

B. 数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。

C. 冗余数据的删除既是一种数据清理形式,也是一种数据归约

D. 整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。

正确答案: B:数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。 

12.  转换里的步骤通过()来连接

A. 箭头

B. 跳

C. 连线

D. 队列

正确答案: B:跳;

13.  下列方法不是数据变换的有

A. 光滑

B.  抽样

C. 规范化

D. 属性构造

正确答案: B: 抽样 ;

14.  Kettle使用图形化的方式定义复杂的ETL程序和工作流,所以被归类为()编程语言。

A. 控件化

B. 可视化

C. 图标化

D. 流程式

正确答案: B:可视化;

15.  在下表中,用同类样本属性的中心度量方法填充空缺值,空缺值应为()

A. 9000

B. 10000

C. 11000

D. 12000

  A:9000 ;正确答案: A:9000 ;

16.  CSV文件是一种用()分割的文本文件。

A. 逗号

B. 空格

C. 分隔符

D. 分号

正确答案: C:分隔符 ;

17.  在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎()运行

A. 异步

B. 分开

C. 依次

D. 同时

 正确答案: D:同时 ;

18.  步骤需要有一个()的名字

A.个性化

B.  唯一性

C. 功能化

D. 以上都是

正确答案: B: 唯一性 ;

19.  下列关于使用参照表清洗数据说法错误的是

A. 有些数据无法从内部发现错误,需要结合外部的数据进行参照

B. 只要方法得当,数据内部是可以发现错误的,不需要借助参照表

C. 使用参数表可以校验数据的准确性

D.  使用参照表可以处理数据的一致性

正确答案: B:只要方法得当,数据内部是可以发现错误的,不需要借助参照表 ;

20.  Kettle是一个()程序

A. Python

B. Java

C. JavaScript

D. C++

正确答案: B:Java;

21. 一个步骤的数据发送可以被设置为()和()。

A. 多次发生,单次发送

B. 轮流发送、复制发送 

C. 轮流发送,多次发送

D. 复制发送,单次发送

正确答案: B:轮流发送、复制发送 ;

22.  ()是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。

A. 步骤

B. 图标

C. 控件

D. 弹框

正确答案: A:步骤;

23.  转换是ETL解决方案中最主要的部分,它负责处理()、()、()各阶段对数据行的各种操作

A. 抽取、转换、加载

B. 转换、加载、抽取

C. 加载、抽取、转换

D.  加载、转换、抽取

正确答案: A:抽取、转换、加载 ;

24.  ()步骤可以从指定的数据库中读取指定关系表的数据

A.CSV文件输入

B.  Excel输入

C. 表输入

D.  OLAP 输入

正确答案: C:表输入 ;

25.  以下说法错误的是

A. 主成分分析、属性子集选择为维归约方法

B. 直方图、聚类、抽样和数据立方体聚集为数量归约方法

C. 用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间

D. 数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

正确答案: C:用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间 ;

26.  一个跳,相对于输出数据的步骤而言,为()跳;相对于输入数据的步骤而言,为()跳。

A. 输出,输出

B. 输入,输入

C. 输入、输出

D. 输出、输入

正确答案: D:输出、输入 ;

27.  在Kettle里,数据的单位是(),数据流就是数据行从一个步骤到另一个步骤的移动

A. 字段

B. 列

C. 单元格

D. 行

正确答案: D:行;

28.  下列关于数据清理描述错误的是

A. 数据清理能完全解决数据质量差的问题

B.  数据清理在数据分析过程中是不可或缺的一个环节

C. 数据清理的目的是提高数据质量

D. 可以借助Kettle来完成大量的数据清理工作

正确答案: A:数据清理能完全解决数据质量差的问题 ;

二. 判断题(共27题)

29.  在一个作业中,START作业项可以多次出现。

A. 对

B. 错

正确答案: 错

30.  Kettle不是开源软件。

A. 对

B. 错

正确答案: 错

31.  Kettle中的步骤是顺序执行的。

A. 对

B. 错

正确答案: 错

32.  Kettle中,参照数据流到流查询步骤对应的跳上会出现一个“i"标识。

A. 对

B. 错

  对正确答案: 对

33.  在kettle中所有文本输入框都可以使用变量。

A. 对

B. 错

正确答案: 错

34.  与文件相比,使用数据库管理数据能够获得更快的访问速度,更方便的访问接口,更可靠的数据完整性。

A. 对

B. 错

正确答案: 对

35.  在读取csv文件时,read_csv函数中参数header=None表示让pandas不指定列名。

A. 对

B. 错

正确答案: 错

36.  步骤名称具有唯一性。

A. 对

B. 错

正确答案: 对

37.  Kettle中的步骤是并行执行的。

A. 对

B. 错

正确答案: 对

38.  Series对象的index可以通过赋值来改变。

A. 对

B. 错

正确答案: 对

39.  在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的DataFrame对象中的对应列值均为NaN,表示一个不可用的值。

A. 对

B. 错

正确答案: 对

40.  作业中的注释是可有可无的,因此它不重要。

A. 对

B. 错

正确答案: 错

41.  Kettle使用Java编写的非可视化工具。

A. 对

B. 错

正确答案: 错

42.  在一个作业中,START作业项可以多次出现。

A. 对

B. 错

正确答案: 错

43.  DataFrame的duplicated方法返回一个布尔型Series,用以提示各行是否是重复行

A. 对

B. 错

正确答案: 对

44.  pandas.read_csv('test.csv', skiprows=[0,2,3]),skiprows的作用是忽略指定行。

A. 对

B. 错

正确答案: 对

45.  Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理。

A. 对

B. 错

正确答案: 错

46.  层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。

A. 对

B. 错

正确答案: 对

47.  注释是为了增强程序的可读性,能大大减低维护成本。

A. 对

B. 错

正确答案: 对

48.  触发器的CDC的可以实时监测到数据的所有变化。

A. 对

B. 错

正确答案: 对

49.  在“数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复。

A. 对

B. 错

正确答案: 对

50.  查询类的步骤不需要激活,可以直接运行。

A. 对

B. 错

正确答案: 错

51.  作业中的注释是可有可无的,因此它不重要。

A. 对

B. 错

正确答案: 错

52.  在使用表输入步骤进行数据抽取时,应尽量避免使用复杂的SQL语句进行数据筛选。

A. 对

B. 错

正确答案: 对

53.  在Kettle中,不存在单一的清洗步骤,清洗工作往往需要结合多个步骤才能组合完成。

A. 对

B. 错

正确答案: 对

54.  由于大部分的数据都是准确无误的,存在问题的数据只占极少部分,只要数据分析的方式 正确,是不需要进行数据清理的。

A. 对

B. 错

正确答案: 错

55.  变量是一个任意长度的字符串值,它有自己的作用范围。

A. 对

B. 错

正确答案: 对

三. 简答题(共16题)

56.  作业项有哪些不同于转换步骤?

正确答案:可以影子拷贝;作业项之间传递一个结果对象;可以并行执行。

57.  在ETL工作中,我们常常面临着处理各种类型的文件场景,请列举几个常见的文件类型。

正确答案:TXT、CSV、Excel、XML、JSON等

58.  简述基于触发器的CDC操作的优缺点。

正确答案:

缺点:因为要变动源数据库,服务协议或者数据库管理员不允许,所以在大多数情况下,不允许向数据添加触发器,而且这种方法还会降低系统的性能。

优点:可以实时监测到数据的所有变化)

59.  简述基于日志的CDC操作的优缺点。

正确答案:

优点:基于日志的方式是最高级的、最没有侵入性的CDC方法;

缺点:只能用来处理一种特定的数据库)

60.  简述基于源数据的CDC操作的缺点。

正确答案:

区分插入和更新操作;不能捕获到物理删除操作,但是可以捕获到逻辑删除;如果在一个同步周期内,数据被更新了多次,那么只能同步最后一次的更新操作,中间的更新操作都无法导入;时间戳和基于序列的CDC操作不适用于实时场景下的数据导入,一般只适用于批量操作。)

61.  请简单描述下如何去除不完全重复数据?

正确答案:

第一步,选定一个或多个字段,使用模糊匹配步骤找出疑似重复数据的记录

第二步,选定一个或多个字段做为参考字段,进一步检测数据的可能重复性

第三步,去除或者合并这些疑似重复的记录,这一步是非常关键的一步,需要结合多方面的因素进行综合评估,最终才能确定一个合并/去除的方案。

62.  请简要描述pandas库的DataFrame对象。

正确答案:

DataFrame是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。DataFrame既有行索引,也有列索引,这些索引可以看作是由Series组成的字典。

63.  什么是跳?

正确答案:

转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。

64.  操作csv文件,按下面的步骤完成代码。

(1)导入pandas模块并设置别名为pd,请写出代码。

(2)假设现有一个名为test.csv的文件,请使用pandas的read_csv函数导入,并设置分隔符是“;“,且没有列名,最后赋值给变量df。

(3)设置df的列名,列名的列表为[‘one’,’two’,’three’]

(4)检查df的各个元素中是否有NaN值。

(5)将df导出为“result.csv”,并以“,”作为分隔符。

正确答案:

import pandas as pd

df = pd.read_csv('test.csv', sep=';', header=False)

df.columns = [‘one’,’two’,’three’]

pd.isnull(df)

df.to_csv(‘result.csv’, sep=',')

65.  什么是CDC(变化数据捕获)?

正确答案:

识别出变化的数据并只导入这部分数据被称为变化数据捕获(Change Data Capture)即CDC)

66.  CDC操作分为哪四种,并标明是否是侵入性的。

正确答案:

基于源数据的CDC,侵入性;基于触发器的CDC,侵入性;基于快照的CDC,侵入性;基于日志的CDC,非侵入性)

67.  数据清理主要目的是什么?

正确答案:

数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。

68.  作业跳对作业项对运行结果的判断有哪三种方式?

正确答案:

无条件的;当结果为真的时候继续下一步;当结果为假的时候继续下一步。

69.  Kettle的参数配置分为哪两类,并简述每一类的作用范围。

正确答案:

Kettle的参数配置分为环境变量配置和命名参数两类。环境变量具有全局性质,配置后的环境变量对所有转换、作业都可用、有效;命名参数具有局部性质,仅对当前转换、作业有效。

70.  写出下面这个作业的执行顺序。

正确答案:

顺序如下:

\1.    首先 “开始” 作业项搜索所有下一个节点作业项,找到了 “A” 和 “C”。

\2.    执行 “A”。

\3.    搜索 “A” 后面的作业项,发现了 “B”。

\4.    执行 “B”。

\5.    搜索 “B” 后面的作业项,没有找到任何作业项。

\6.    回到 “A”,也没发现其他作业项。

\7.    回到 “START”,发现另一个要执行的作业项 “C”。

\8.    执行 “C”。

\9.    搜索 “C” 后面的作业项,没有找到任何作业项。

\10.   回到 “START”,没有找到任何作业项。

\11.   作业结束。

71.  什么是转换?

正确答案:

转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【福建师范大学精品大数据导论课程列表】 福建师范大学精品大数据导论课程系列 (1.1.1)--大数据导论课程简介》PPT.pdf 福建师范大学精品大数据导论课程系列 (2.1.1)--什么是大数据》PPT.pdf 福建师范大学精品大数据导论课程系列 (2.2.1)--1.2 《大数据的价值和作用》PPT.pdf 福建师范大学精品大数据导论课程系列 (2.3.1)--1.3 《大数据时代的思维变革》PPT.pdf 福建师范大学精品大数据导论课程系列 (3.1.1)--2.1 《大数据相关技术基础(1)》PPT.pdf 福建师范大学精品大数据导论课程系列 (3.2.1)--2.2 《大数据相关技术基础(2)》PPT.pdf 福建师范大学精品大数据导论课程系列 (3.3.1)--2.3 《大数据相关技术基础(3)》PPT.pdf 福建师范大学精品大数据导论课程系列 (4.1.1)--3.1 《大数据来源》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (4.2.1)--3.2 《大数据采集》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (4.3.1)--3.3 《大数据预处理》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (4.4.1)--3.4 《大数据集成》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (5.1.1)--4.1.1 hadoop简介之一.pdf 福建师范大学精品大数据导论课程系列 (5.2.1)--4.1.2 hadoop简介之二.pdf 福建师范大学精品大数据导论课程系列 (5.3.1)--4.2 HDFS的简要介绍.pdf 福建师范大学精品大数据导论课程系列 (5.4.1)--4.3 基于HDFS的数据库之一.pdf 福建师范大学精品大数据导论课程系列 (5.5.1)--4.3 基于HDFS的数据库之二.pdf 福建师范大学精品大数据导论课程系列 (5.6.1)--4.3 基于HDFS的数据库之三.pdf 福建师范大学精品大数据导论课程系列 (5.7.1)--4.4 一种基于Hadoop的数据仓库之一.pdf 福建师范大学精品大数据导论课程系列 (5.8.1)--4.4 一种基于Hadoop的数据仓库之二.pdf 福建师范大学精品大数据导论课程系列 (5.9.1)--4.4 一种基于Hadoop的数据仓库之三.pdf 福建师范大学精品大数据导论课程系列 (6.1.1)--5.1 一种并行编程模型--MapReduce-之一.pdf 福建师范大学精品大数据导论课程系列 (6.2.1)--5.1 一种并行编程模型--MapReduce-之二.pdf 福建师范大学精品大数据导论课程系列 (6.3.1)--5.1 一种并行编程模型--MapReduce-之三.pdf 福建师范大学精品大数据导论课程系列 (6.4.1)--5.1 一种并行编程模型--MapReduce-之四.pdf 福建师范大学精品大数据导论课程系列 (6.5.1)--5.2 ApacheSpark之一.pdf 福建师范大学精品大数据导论课程系列 (6.6.1)--5.2 ApacheSpark之二.pdf 福建师范大学精品大数据导论课程系列 (6.7.1)--5.2 ApacheSpark之三.pdf 福建师范大学精品大数据导论课程系列 (7.1.1)--6.1 《数据描述性分析》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (7.2.1)--6.2 《回归分析》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (7.3.1)--6.3 《聚类分析》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (7.4.1)--6.4 《分类分析》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (7.5.1)--6.5 《Weka软件简》课件PPT.pdf 福建师范大学精品大数据导论课程系列 (8.1.1)--7.1.1 《数据可视化的概念》PPT.pdf 福建师范大学精品大数据导论课程系列 (8.2.1)--7.1.2 《数据可视化的发展历》PPT.pdf 福建师范大学精品大数据导论课程系列 (8.3.1)--7.1.3 《数据可视化技术》PPT.pdf 福建师范大学精品大数据导论课程系列 (8.4.1)--7.2.1 《数据可视化的技术分类》PPT.pdf 福建师范大学精品大数据导论课程系列 (8.5.1)--7.2.2 《数据可视化具体方法》PPT.pdf 福建师范大学精品大数据导论课程系列 (8.6.1)--7.3.1 《数据可视化工具简介》PPT.pdf 福建师范大学精品大数据导论课程系列 (8.7.1)--7.3.2 《Excel数据可视化方法与应用》.pdf

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值