一.单选题
1
数据采集工具不包括(C)
A、Flume
B、Kafka
C、Hbase
D、Sqoop
2
关于数据的规范化的错误观点是(A)
A、方便存储
B、一般包括数据中心化和数据标准化
C、是为了消除量纲对数据结构的影响
D、一般是一个无量纲的纯数值
3
在ETL三个部分中,花费时间最长的是(B)的部分。
A、E
B、T
C、L
D、以上全部
ps:什么是ETL
ETL是数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤
ETL代表Extract-Transform-Load,它是将数据从源系统加载到数据仓库的过程。用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
4
大数据的来源途径有许多,如下哪些属于大数据来源(D)
A、传感器设备采集的数据
B、人在微博上发表的记录
C、计算机网络运行产生的日志
D、网络爬虫得到的数据
5
数据规约策略中错误的是( B)
A、数据立方体聚集策略
B、数据标准化
C、维度规约
D、特征值规约
6
数据清洗的一般过程中,在数据修正后,需要进行( C)
A、定位
B、检测
C、验证
D、构造