2021-06-16

最新推荐文章于 2021-06-25 18:42:34 发布

qq_45951688

最新推荐文章于 2021-06-25 18:42:34 发布

阅读量2.9k

点赞数 4

文章标签：大数据数据挖掘

本文链接：https://blog.csdn.net/qq_45951688/article/details/117949525

版权

大数据相关知识

1.【单选题】关于SecondaryNameNode哪项是正确的？(2分)
A.它是NameNode的热备
B.它对内存没有要求
C.它对目的是帮助NameNode合并编辑日志，减少NameNode的负担和冷启动时的加载时间
D.SecondaryNameNode应与NameNode部署到一个节点
正确答案:C
2.【单选题】下列不属于flume组件的是__(2分)
A.hdfs
B.source
C.channel
D.sink
正确答案:A
3.【单选题】以下哪个不是HDFS的守护进程？(2分)
A.secondarynamenode
B.datanode
C.mrappmaster/yarnchild
D.namenode
正确答案:C
4.【单选题】HBase虚拟分布式模式需要（）个节点？(2分)
A.1
B.2
C.3
D.最少3个
正确答案:A
5.【单选题】MongoDB的存储对象是什么(2分)
A.BSON
B.JSON
C.txt文本
D.字符串
正确答案:A
6.【单选题】HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？(2分)
A.一次写入，少次读写
B.多次写入，少次读写
C.一次写入，多次读写
D.多次写入，多次读写
正确答案:C
7.【单选题】在HTML中，使用外部样式表可以通过（）元素进行引入(2分)
A.REL
B.HREF
C.LINK
D.CSS
正确答案:C
8.【单选题】哪个不是本地模式运行的条件()(2分)
A.spark.localExecution.enabled=true
B.显式指定本地运行
C.finalStage无父Stage
D.partition默认值
正确答案:D上一题下一题
9.【单选题】下列哪种类型的文件不是HDFS集群的元数据存储格式？(2分)
A.fsimage
B.edits
C.edits_inprogress
D.blk_000003425
正确答案:D
10.【单选题】下列关于配置机架感知的相关描述哪项不正确？(2分)
A.如果一个机架出问题，不会影响数据读写和正确性
B.写入数据的时候多个副本会写到不同机架的DataNode中
C.MapReduce会根据机架的拓扑获取离自己比较近的数据块
D.数据块的第一个副本会优先考虑存储在客户端所在节点
正确答案:B
11.【单选题】Hive定义一个自定义函数类时，需要继承以下哪个类？(2分)
A.FunctionRegistry
B.UDF
C.MapReduce
正确答案:B
2.【单选题】HDFS集群中的DataNode的主要职责是？(2分)
A.维护HDFS集群的目录树结构维护HDFS集群的所有数据块的分布、副本数和负载均衡
B.维护HDFS集群的所有数据块的分布、副本数和负载均衡
C.负责保存客户端上传的数据
D.响应客户端的所有读写数据请求
你的回答:
错误
正确答案:C
答案解析:
NameNode是HDFS的管理节点，DataNode是HDFS集群的工作节点，所以用户上传的数据是由DataNode进行保存的。NameNode是负责保存用户上传到的这些数据的元数据和维护HDFS的抽象目录树结构。也会响应客户端的所有读写请求
13.【单选题】Hive的计算引擎是什么？(2分)
A.Spark
B.MapReduce
C.HDFS
正确答案:B
15.【单选题】下列哪个程序通常与NameNode在一个节点启动？(2分)
A.SecondaryNameNode
B.DataNode
C.TaskTracker
D.Jobtracker
正确答案:D上一题下一题
17.【单选题】下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是__(2分)
A.FSDataInputStream扩展了DataInputStream以支持随机读
B.为实现细粒度并行，输入分片(InputSplit)应该越小越好
C.一台机器可能被指派从输入文件的任意位置开始处理一个分片
D.输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割
正确答案:B
18.【单选题】关于HDFS集群中的DataNode的描述不正确的是？(2分)
A.DataNode之间都是独立的，相互之间不会有通信
B.存储客户端上传的数据的数据块
C.一个DataNode上存储的所有数据块可以有相同的
D.响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑
正确答案:C
19.【单选题】Client端上传文件的时候下列哪项正确？(2分)
A.数据经过NameNode传递给DataNode
B.Client端将文件切分为Block，依次上传
C.Client只上传数据到一台DataNode，然后由NameNode负责Block复制
D.Client如果上传的时候没有上传成功指定的副本数，则整次上传不成功
正确答案:B
20.【单选题】以下哪个不是HDFS的守护进程？(2分)
A.SecondaryNameNode
B.datanode
C.mrappmaster/yarnchild
D.namenode
正确答案:C
21.【单选题】HBase依靠（）存储底层数据(2分)
A.HDFS
B.Hadoop
C.Memory
D.MapReduce
正确答案:A
23.【单选题】请问以下哪个命令组成是错误的？(2分)
A.sbin/stop-dfs.sh
B.sbin/hdfsdfsadmin-report
C.bin/hadoopnamenode-format
D.bin/hadoopfs-cat/hadoopdata/my.txt
正确答案:B
24.【单选题】Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是？(2分)
A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B.根据策略对数据块进行必要的复制或删除
C.当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D.文件系统允许有修改
正确答案:D
26.【单选题】下面哪个端口不是spark自带服务的端口()(2分)
A.8080
B.4040
C.8080
D.18080
正确答案:C
27.【单选题】关于HDFS的文件写入，正确的是？(2分)
A.支持多用户对同一文件的写操作
B.用户可以在文件任意位置进行修改
C.默认将文件块复制成三份分别存放
D.复制的文件块默认都存在同一机架的多个不同节点上
正确答案:C
28.【单选题】下列关于HDFS的描述正确的是？(2分)
A.如果NameNode宕机，SecondaryNameNode会接替它使集群继续工作
B.HDFS集群支持数据的随机读写
C.NameNode磁盘元数据不保存Block的位置信息
D.DataNode通过长连接与NameNode保持通信
正确答案:C上一题下一题
29.【单选题】HBase中的批量加载底层使用（）实现。(2分)
A.MapReduce
B.Hive
C.Coprocessor
D.BloomFilter
正确答案:A
30.【单选题】有关MapReduce的输入输出，说法错误的是__(2分)
A.链接多个MapReduce作业时，序列文件是首选格式
B.FileInputFormat中实现的getSplits()可以把输入数据划分为分片，分片数目和大小任意定义
C.想完全禁止输出，可以使用NullOutputFormat
D.每个reduce需将它的输出写入自己的文件中，输出无需分片
正确答案:B
31.【单选题】在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是？(2分)
A.ChainReducer.addMapper()方法中，一般对键/值对发送设置成值传递，性能好且安全性高
B.使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象
C.ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成
D.Job和JobControl类可以管理非线性作业之间的依赖
正确答案:A
33.【单选题】标记在标记之间，标记之间的内容将显示到（）(2分)
A.浏览器的页面上部
B.浏览器的标题栏上
C.浏览器的状态栏中
D.浏览器的页面下部
正确答案:B
34.【单选题】以下关于jQuery的说法中错误的是（）(2分)
A.jQuery是JavaScript的程序库之一，它是对JavaScript的封装
B.相对于JavaScript，jQuery语法更为简单，能大幅提高开发效率
C.相对于JavaScript，jQuery解决了大部分浏览器兼容性问题，减少了出错的概率
D.jQuery功能强大，能完全代替JavaScript
正确答案:D
35.【单选题】HDFS集群中的namenode职责不包括？(2分)
A.维护HDFS集群的目录树结构维护HDFS集群的所有数据块的分布、副本数和负载均衡
B.维护HDFS集群的所有数据块的分布、副本数和负载均衡
C.负责保存客户端上传的数据
D.响应客户端的所有读写数据请求
正确答案:C
36.【单选题】解压.tar.gz结尾的HBase压缩包使用的Linux命令是？(2分)
A.tar-zxvf
B.tar-zx
C.tar-s
D.tar-nf
正确答案:A
37.【单选题】以下不是MapReduce计算过程的是？(2分)
A.Mapper
B.Partitioner
C.Combiner
D.Task
正确答案:D
38.【单选题】HBase依赖（）提供强大的计算能力(2分)
A.Zookeeper
B.Chubby
C.RPC
D.MapReduce
正确答案:D
39.【单选题】Spark的四大组件下面哪个不是()(2分)
A.SparkStreaming
B.Mlib
C.Graphx
D.SparkR
正确答案:D
40.【单选题】SparkJob默认的调度模式()(2分)
A.FIFO
B.FAIR
C.无
D.运行时指定
正确答案:A
41.【单选题】Redis提供了几种持久化方式？(2分)
A.2种
B.3种
C.4种
D.5种
正确答案:A
42.【单选题】以下不是Redis优点的是？(2分)
A.支持事务
B.读写不占据内存，数据放在磁盘
C.支持丰富的数据类型
D.支持数据持久化
正确答案:B
44.【单选题】下列关于MapReduce说法不正确的是___？(2分)
A.MapReduce是一种计算框架
B.MapReduce来源于google的学术论文
C.MapReduce程序只能用java语言编写
D.MapReduce隐藏了并行计算的细节，方便使用
正确答案:C
45.【单选题】下列元素中，（）不是input元素(2分)
A.下拉列表框
B.多行文本域
C.图像
D.复选框
正确答案:B
46.【单选题】Redis不支持下面哪种数据类型？(2分)
A.String
B.Int
C.Set
D.List
正确答案:B
47.【单选题】下面哪个不是RDD的特点()(2分)
A.可分区
B.可序列化
C.可修改
D.可持久化
正确答案:C
48.【单选题】下面关于Kafka描述错误的是__(2分)
A.一个topic分成多个partition
B.每个partition内部消息是无序的
C.一个partition只对应一个broker
D.消息不经过内存缓冲，直接写入文件
正确答案:B
49.【单选题】Kafka的作用是什么？(2分)
A.消息队列
B.存储数据的起点
C.计算框
D.可视化工具
正确答案:A
50.【单选题】MongoDB中每个集合可以创建几个索引？(2分)
A.16个
B.32个
C.64个
D.128个
正确答案:C
51.【单选题】Kafka根据什么为单位进行归纳？(2分)
A.broker
B.topic
C.producer
D.consumer
正确答案:B
52.【单选题】HDFS默认BlockSize大小是多少(2分)
A.32MB
B.64MB
C.128MB
D.256MB
正确答案:C
53.【单选题】HBase依赖（）提供消息通信机制(2分)
A.Zookeeper
B.Chubby
C.RPC
D.Socket
正确答案:A
54.【单选题】下面哪个程序负责HDFS数据存储。(2分)
A.NameNode
B.Jobtracker
C.Datanode
D.secondaryNameNode
正确答案:C
55.【单选题】HFile数据格式中的Data字段用于（）(2分)
A.存储实际的KeyValue数据
B.存储数据的起点
C.指定字段的长度
D.存储数据块的起点
正确答案:A
56.【单选题】下列哪项通常是集群的最主要瓶颈：(2分)
A.CPU
B.网络
C.磁盘IO
D.内存
正确答案:C
57.【单选题】HDFS中的block默认保存几个备份(2分)
A.3份
B.2份
C.1份
D.不确定
正确答案:A
58.【单选题】下面不是Kafka特点的是__(2分)
A.高性能：单节点支持上千个客户端，百MB/s吞吐
B.分布式：数据副本冗余、流量负载均衡、可扩展
C.持久性：消息直接持久化在普通磁盘上且性能好
D.实时性：消息一旦消费就不再存储
正确答案:D
11.【单选题】Hadoop作者(2分)
A.MartinFowler
B.KentBeck
C.Dougcutting
D
59.
hive相对于Oracle来说有那些优点？
1.三个优点
试题答案：
1）存储，hive存储在hdfs上，oracle存储在本地文件系统2）扩展性，hive可以扩展到数千节点，oracle理论上只可扩展到100台左右3）单表存储，数据量大hive可以分区分桶，oracle数据量大只能分表。
60.
试分析为何采用Combiner可以减少数据传输量?是否所有的MapReduce程序都可以采用Combiner?为什么?
试题答案：
对于每个分区内的所有键值对，后台线程会根据key对它们进行内存排序(Sort),排序是MapReduce的默认操作。排序结束后，还包含一个可选的合并(Combine)操作。如果用户事先没有定义Combiner函数，就不用进行合并操作。如果用户事先定义了Combiner函数，则这个时候会执行合并操作，从而减少需要溢写到磁盘的数据量。所谓“合并”，是指将那些具有相同key的的value加起来，比如，有两个键值对<*xmu",1>和<*xmu",1>,经过合并操作以后就可以得到一个键值对<*xmu",2>,减少了键值对的数量。不过，并非所有场合都可以使用Combiner,因为，Combiner的输出是Reduce任务的输人，Combiner绝不能改变Reduce任务最终的计算结果，一般而言，累加、最大值等场景可以使用合并操作。

简述HBASE中compact用途是什么，什么时候触发，分为哪两种,有什么区别，有哪些相关配置参数？
试题答案：
在hbase中每当有memstore数据flush到磁盘之后，就形成一个storefile，当storeFile的数量达到一定程度后，就需要将storefile文件来进行compaction操作。Compact的作用：1>.合并文件2>.清除过期，多余版本的数据3>.提高读写数据的效率minorandmajor.这两种compaction方式的区别是：1、Minor操作只用来做部分文件的合并操作以及包括minVersion=0并且设置ttl的过期版本清理，不做任何删除数据、多版本数据的清理工作。2、Major操作是对Region下的HStore下的所有StoreFile执行合并操作，最终的结果是整理合并出一个文件。简述Hbasefilter的实现原理是什么？结合实际项目经验，写出几个使用filter的场景HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列名，时间戳定位）。RowFilter、PrefixFilter。。。hbase的filter是通过scan设置的，所以是基于scan的查询结果进行过滤.过滤器的类型很多，但是可以分为两大类——比较过滤器，专用过滤器过滤器的作用是在服务端判断数据是否满足条件，然后只将满足条件的数据返回给客户端；如在进行订单开发的时候，我们使用rowkeyfilter过滤出某个用户的所有订单
62.
Hadoop集群可以运行的3个模式？
试题答案：
1、单机模式是Hadoop的默认模式。2、伪分布运行模式伪分布:如果Hadoop对应的Java进程都运行在一个物理机器上,称为伪分布运行模式。3、集群模式如果Hadoop对应的Java进程运行在多台物理机器上,称为全分布式.
63.
Hadoop的核心配置是什么？
试题答案：
Hadoop的核心配置通过两个xml文件来完成：1，hadoop-default.xml；2，hadoop-site.xml。这些文件都使用xml格式，因此每个xml中都有一些属性，包括名称和值，但是当下这些文件都已不复存在。
2，hadoop-site.xml。
4.
试述“SparkonYARN”的概念。
试题答案：
Spark可以运行与YARN之上，与Hadoop进行统一部署，即“SparkonYARN”，其架构如图所示，资源管理和调度以来YARN，分布式存储则以来HDFS。

解释下hbase实时查询的原理
试题答案：
实时查询，可以认为是从内存中查询，一般响应时间在1秒内。HBase的机制是数据先写入到内存中，当数据量达到一定的量（如128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBaseI/O的高性能。
66.
是否所有的MapReduce程序都需要经过Map和Reduce这两个过程?如果不是，请举例说明。
试题答案：
不是。对于关系的选择运算，只需要Map过程就能实现，对于关系R中的每个元组t,检测是否是满足条件的所需元组，如果满足条件，则输出键值对<,>,也就是说，键和值都是t。这时的Reduce函数就只是一个恒等式，对输入不做任何变换就直接输出。

MapReduce模型采用Master(JobTracker)-Slave(TaskTracker)结构，试描述JobTracker和TasKTracker的功能。
试题答案：
MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave。Master上运行JobTracker,Slave上运行TaskTrackero用户提交的每个计算作业，会被划分成若千个任务。JobTracker负责作业和任务的调度，监控它们的执行，并重新调度已经失败的任务。TaskTracker负责执行由JobTracker指派的任务。

解释Kafka的用户如何消费信息?
试题答案：
在Kafka中传递消息是通过使用sendfileAPI完成的。它支持将字节从套接口转移到磁盘，通过内核空间保存副本，并在内核用户之间调用内核。

Spark的出现是为了解决HadoopMapReduce的不足，试列举HadoopMapReduce的几个缺陷，并说明Spark具备哪些优点。
试题答案：
Hadoop存在以下缺点：①表达能力有限；②磁盘IO开销大；③延迟高Spark主要有如下优点：①Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比MapReduce更灵活；②Spark提供了内存计算，中间结果直接存放内存中，带来更高的迭代运算效率；③Spark基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制。
70.
Spark是基于内存计算的大数据计算平台，试述Spark的主要特点。
试题答案：
Spark具有如下4个主要特点：①运行速度快；②容易使用；③通用性；④运行模式多样。
71.
MapReduce中有这样一个原则:移动计算比移动数据更经济。试述什么是本地计算，并分析为何要采用本地计算。
试题答案：
MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为移动数据需要大量的网络传输开销，尤其是在大规模数据环境下，这种开销尤为惊人，所以，移动计算要比移动数据更加经济。本地计算：在一个集群中，只要有可能，MapReduce框架就会将Map程序就近地在HDFS数据所在的节点运行，即将计算节点和存储节点放在一起运行，从而减少了节点间的数据移动开销。

解释一下hbase的存储结构？
试题答案：
Hbase中的每张表都通过行键(rowkey)按照一定的范围被分割成多个子表（HRegion），默认一个HRegion超过256M就要被分割成两个，由HRegionServer管理，管理哪些HRegion由Hmaster分配。HRegion存取一个子表时，会创建一个HRegion对象，然后对表的每个列族（ColumnFamily）创建一个store实例，每个store都会有0个或多个StoreFile与之对应，每个StoreFile都会对应一个HFile，HFile就是实际的存储文件，因此，一个HRegion还拥有一个MemStore实例。
73.
NameNode和DataNode的功能分别是什么？
试题答案：
NN的主要功能：NN提供名称查询功能，它是一个Jetty服务器；NN保存metadata信息。包括：文件owership和permissions;文件包含哪些块；Block保存在哪个DN（由DN启动时上报）；NN的metadata信息在启动后加载到内存。DN的主要功能：保存Block，每个块对应一个元数据的数据信息文件。这个文件主要描述这个块属于哪个文件、第几个块等信息。启动DN线程时会向NN汇报Block信息。通过向NN发送心跳保持与其联系（3秒一次），如果NN10分钟没有收到DN的心跳，则认为其已经lost，并将其上的Block复制到其他DataNode上。
74.
hive是如何实现分的？
试题答案：
建表语句：createtabletablename(id)partitionedby(dtstring)增加分区：altertabletablennameaddpartition(dt=‘2016-03-06’)删除分区：altertabletablenamedroppartition(dt=‘2016-03-06’)

Hive的sortby和orderby的区别
试题答案：
orderby会对输入数据做全局排序，只有一个reduce，数据量较大时，很慢。sortby不是全局排序，只能保证每个reduce有序，不能保证全局有序，需设置mapred.reduce.tasks>1

Flume的Source，Sink，Channel的作用？你们Source是什么类型？
试题答案：
作用（1）Source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spoolingdirectory、netcat、sequencegenerator、syslog、http、legacy（2）Channel组件对采集到的数据进行缓存，可以存放在Memory或File中。（3）Sink组件是用于把数据发送到目的地的组件，目的地包括Hdfs、Logger、avro、thrift、ipc、file、Hbase、solr、自定义。

试述关系数据库在哪些方面无法满族Web2.0应用的需求。
试题答案：
(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求
78.
美国加州大学伯克利分校提出的数据分析的软件栈BDAS认为目前的大数据处理可以分为哪三个类型？
试题答案：
①复杂的批量数据处理：时间跨度通常在数十分钟到数小时之间；②基于历史数据的交互式查询：时间跨度通常在数十秒到数分钟之间；③基于实时数据流的数据处理：时间跨度通常在数百毫秒到数秒之间。
79.
试述数据可视化的概念。
试题答案：
数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。
80.
全分布模式又有什么注意点？
试题答案：
全分布模式通常被用于生产环境，这里我们使用N台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机，Datanode运行的主机，以及tasktracker运行的主机。在分布式环境下，主节点和从节点会分开。
81.
hbase的特点是什么？
试题答案：
1)hbase是一个分布式的，基于列式存储的数据库，基于hadoop的hdfs存储，zookeeper进行管理。2)hbase适合存储半结构化或非结构化的数据，对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。3)hbase为null的数据不会被存储4)基于的表包含rowKey，时间戳和列族，新写入数据时，时间戳更新，同时可以查询到以前的版本5）hbase是主从结构，hmaster作为主节点，hregionServer作为从节点
82.
如何准确理解NoSQL的含义？
试题答案：
NoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的一类统称，它采用的数据模型并非传统关系数据库的关系模型，而是类似键/值、列族、文档等非关系模型。
83.
单机（本地）模式中的注意点？
试题答案：
在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。
84.
HDFS和传统的分布式文件系统相比较，有哪些独特的特性？
试题答案：
高容错性、可扩展性、可配置性强；文件权限和授权；机架感知功能；安全模式；负载均衡LoadBalance(LB)
85.
hbase如何导入数据？
试题答案：
使用MapReduceJob方式，根据HbaseAPI编写java脚本，将文本文件用文件流的方式截取，然后存储到多个字符串数组中，在put方法下，通过对表中的列族进行for循环遍历列名，用if判断列名后进行for循环调用put.add的方法对列族下每一个列进行设值，每个列族下有几个了就赋值几次！没有表先创建表。
86.
HDFS中数据副本的存放策略是什么？
试题答案：
HDFS默认副本系数是3，第一块放在本机的HDFS目录下；第二块放在不同Rack的某个DataNode上；第三块放在本机同机架的某台机器上。
87.
试述数据可视化的重要作用。
试题答案：
①观测、跟踪数据。利用变化的数据生成实时变化的可视化图表，可以让人们一眼看出各种参数的动态变化过程，有效跟踪各种参数值。②分析数据。利用可视化技术，实时呈现当前分析结果，引导用户参与分析过程，根据用户反馈信息执行后续分析操作，完成用户与分析算法的全程交互，实现数据分析算法与用户领域知识的完美结合。③辅助理解数据。帮助普通用户更快、更准确地理解数据背后的定义。④增强数据吸引力。枯燥的数据被制成具有强大视觉冲击力和说服力的图像，可以大大增强读者的阅读兴趣。

hive内部表和外部表的区别？
试题答案：
内部表：建表时会在hdfs创建一个表的存储目录，增加分区的时候，会将数据复制到此location下，删除数据的时候，将表的数据和元数据一起删除。外部表：一般会建立分区，增加分区的时候不会将数据移到此表的location下，删除数据的时候，只删除了表的元数据信息，表的数据不会删除。
89.
hdfs-site.xml的3个主要属性？
试题答案：
dfs.name.dir决定的是元数据存储的路径以及DFS的存储方式（磁盘或是远端）dfs.data.dir决定的是数据存储的路径fs.checkpoint.dir用于第二Namenode
90.
可视化工具主要包含哪些类型？各自的代表产品有哪些？
试题答案：
主要包括入门级工具（Excel）、信息图表工具（GoogleChartAPI、D3、Visual.ly、Raphael、Flot、Tableau、大数据魔镜）、地图工具（ModestMaps、Leaflet、PolyMaps、OpenLayers、Kartography、GoogleFushionTables、QuanumGIS）、时间线工具（Timetoast、Xtimeline、Timeslide、Dipity）和高级分析工具（Processing、NodeBox、R、Weka和Gephi）等。

Spark已打造出结构一体化，功能多样化的大数据生态系统，试述Spark的生态系统。
试题答案：
Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成一套完整生态系统，1.既能够提供内存计算框架，也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。2.Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案。3.因此，Spark所提供的生态系统同时支持批处理、交互式查询和流数据处理。
92.
试述如下Spark的几个主要概念：RDD、DAG、阶段、分区、窄依赖、宽依赖。
试题答案：
① RDD：是弹性分布式数据集（Resilient Distributed Dataset）的英文缩写，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
② DAG：是Directed Acyclic Graph（有向无环图）的英文缩写，反映RDD之间的依赖关系。
③ 阶段：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”，或者也被称为“任务集”。
④ 分区：一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段。
⑤窄依赖：父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖。
⑥ 宽依赖：父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖。
93.
试述NoSQL数据库的四大类型
试题答案：
键值数据库、列族数据库、文档数据库和图数据库

为什么HDFS的块如此之大？
试题答案：
HDFS的块比磁盘块要大，目的是减小寻址开销。如果块太小，那么大量的时间将花在磁盘块的定位上。
95.
负载均衡作为一个独立的进程与NameNode分开执行，HDFS负载均衡的处理步骤是什么？
试题答案：首先，NameNode会搜集到所有DataNode的磁盘信息；启动进程RebalancingServer；移动数据到目标机器上，同时删除自己机器上的数据。
96.
Hive的join有几种方式，怎么实现join的？
试题答案：
1）在reduce端进行join，最常用的join方式。Map端的主要工作：为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。reduce端的主要工作：在reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开，最后进行笛卡尔。2）在map端进行join，使用场景：一张表十分小、一张表很大：在提交作业的时候先将小表文件放到该作业的DistributedCache中，然后从DistributeCache中取出该小表进行joinkey/value解释分割放到内存中(可以放大HashMap等等容器中)。然后扫描大表，看大表中的每条记录的joinkey/value值是否能够在内存中找到相同joinkey的记录，如果有则直接输出结果3）SemiJoin，semijoin就是左边连接是reducejoin的一种变种，在map端过滤掉一些数据，在网络传输过程中，只传输参与连接的数据，减少了shuffle的网络传输量，其他和reduce的思想是一样的。实现：将小表中参与join的key单独抽取出来通过DistributeCache分发到相关节点，在map阶段扫描连接表，将joinkey不在内存hashset的纪录过滤掉，让参与join的纪录通过shuffle传输到reduce端进行join，其他和reducejoin一样。

MapReduce是处理大数据的有力工具，但不是每个任务都可以使用MapReduce来进行处理。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。
试题答案：
适合用MapReduce来处理的数据集，需要满足一个前提条件:待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。（数据集可以分解，分解后的数据集可以并行处理）
98.
解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka吗?
试题答案：
Zookeeper是一个开放源码的、高性能的协调服务，它用于Kafka的分布式应用。不，不可能越过Zookeeper，直接联系Kafkabroker。1.一旦Zookeeper停止工作，它就不能服务客户端请求。2.Zookeeper主要用于在集群中不同节点之间进行通信，在Kafka中，它被用于提交偏移量，因此如果节点在任何情况下都失败了，它都可以从之前提交的偏移量中获取。
99.
Spark对RDD的操作主要分为行动（Action）和转换（Transformation）两种类型，两种类型操作的区别是什么？
第99题：
1.两种类型操作的区别
试题答案：
行动（Action）：在数据集上进行运算，返回计算值。（计算）转换（Transformation）：基于现有的数据集创建一个新的数据集。（相当于是一个数据集准备扩充的过程）

在Kafka中broker的意义是什么?
第100题：
1.在Kafka集群中，broker术语用于引用服务器。