hadoop面试题

最新推荐文章于 2023-10-10 22:15:16 发布

半_调_子

最新推荐文章于 2023-10-10 22:15:16 发布

阅读量3.5k

点赞数 1

分类专栏：大数据运维 spark hive

本文链接：https://blog.csdn.net/wangjunji34478/article/details/114502039

版权

大数据运维同时被 3 个专栏收录

14 篇文章

订阅专栏

spark

6 篇文章

订阅专栏

hive

4 篇文章

订阅专栏

1、当前大数据技术的基础是由（ C）首先提出的。（单选题，本题2分）A：微软B：百度C：谷歌D：阿里巴巴
2、大数据的起源是（C）。（单选题，本题2分）A：金融B：电信C：互联网D：公共管理
3、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（C）。（单选题，本题2分）A：数据管理人员B：数据分析员C：研究科学家D：软件开发工程师
4、（D）反映数据的精细化程度，越细化的数据，价值越高。（单选题，本题2分）A：规模B：活性C：关联度D：颗粒度
5、数据清洗的方法不包括（ D）。（单，本题2分）A：缺失值处理B：噪声数据清除C：一致性检查D：重复数据记录处理
6、智能健康手环的应用开发，体现了（ D）的数据采集技术的应用。（单选题，本题2分） A：统计报表B：网络爬虫C：API接口D：传感器
7、下列关于数据重组的说法中，错误的是（A）。（单选题，本题2分）A：数据重组是数据的重新生产和重新采集B：数据重组能够使数据焕发新的光芒C：数据重组实现的关键在于多源数据融合和数据集成D：数据重组有利于实现新颖的数据模式创新

8、智慧城市的构建，不包含（C）。（单选题，本题2分）A：数字城市B：物联网C：联网监控D：云计算
9、大数据的最显著特征是（A）。（单选题，本题2分）A：数据规模大B：数据类型多样 C：数据处理速度快D：数据价值密度高
10、美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（B）。（单选题，本题2分）A：在数据基础上倾向于全体数据而不是抽样数据B：在分析方法上更注重相关分析而不是因果分析C：在分析效果上更追究效率而不是绝对精确D：在数据规模上强调相对数据而不是绝对数据

11、下列关于舍恩伯格对大数据特点的说法中，错误的是（D）。（单选题，本题2分）A：数据规模大B：数据类型多样C：数据处理速度快D：数据价值密度高
12、当前社会中，最为突出的大数据环境是（A）。（单选题，本题2分）A：互联网B：物联网C：综合国力D：自然资源
13、在数据生命周期管理实践中，（B）是（单选题，本题2分）A：数据存储和备份规范B：数据管理和维护C：数据价值发觉和利用 D：数据应用开发和管理

14、下列关于网络用户行为的说法中，错误的是（C）。（单选题，本题2分）A：网络公司能够捕捉到用户在其网站上的所有行为B：用户离散的交互痕迹能够为企业提升服务质量提供参考C：数字轨迹用完即自动删除D：用户的隐私安全很难得以规范保护

15、下列关于计算机存储容量单位的说法中，错误的是（C）。（单选题，本题2分）A：1KB＜1MB＜1GBB：基本单位是字节（Byte）C：一个汉字需要一个字节的存储空间D：一个字节能够容纳一个英文字符，

16、下列关于聚类挖掘技术的说法中，错误的是（B）。（单选题，本题2分）A：不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别B：要求同类数据的内容相似度尽可能小C：要求不同类数据的内容相似度尽可能小

17、下列国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是（D）。（单选题，本题2分）A：美国B：日本C：中国D：韩国

18、下列关于大数据的分析理念的说法中，错误的是（D）。（单选题，本题2分）A：在数据基础上倾向于全体数据而不是抽样数据B：在分析方法上更注重相关分析而不是因果分析C：在分析效果上更追究效率而不是绝对精确D：在数据规模上强调相对数据而不是绝对数据

19、大数据时代，数据使用的关键是（D）。（单选题，本题2分）A：数据收集B：数据存储C：数据分析D：数据再利用

20、数据仓库的最终目的是（D）。（单选题，本题2分）A：收集业务需求建立数据仓库逻辑模型C：开发数据仓库的应用分析D：为用户和业务部门提供决策支持

多选题：
1.下列哪项可以作为集群的管理？答案：ABDa)Puppetb)Pdshc)ClouderaManagerd)Zookeeper
2.配置机架感知的下面哪项正确：答案ABCa)如果一个机架出问题，不会影响数据读写b)写入数据的时候会写到不同机架的DataNode中c)MapReduce会根据机架获取离自己比较近的网络数据
3.Client端上传文件的时候下列哪项正确？答案Ba)数据经过NameNode传递给DataNodeb)Client端将文件切分为Block，依次上传c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
4.下列哪个是Hadoop运行的模式：答案ABCa)单机版b)伪分布式c)分布式
5.Cloudera提供哪几种安装CDH的方法？答案：ABCDa)Clouderamanagerb)Tarballc)Yumd)Rpm
6.下面对HBase的描述哪些是正确的？B、C、DA不是开源的B是面向列的C是分布式的D是一种NoSQL数据库
7.MapReduce与HBase的关系，哪些描述是正确的？B、C A两者不可或缺，MapReduce是HBase可以正常运行的保证B两者不是强关联关系，没有MapReduce，HBase可以正常运行CMapReduce可以直接访问HBaseD它们之间没有任何关系
8.下面哪些选项正确描述了HBase的特性？A、B、C、DA高可靠性B高性能C面向列D可伸缩
9.下面哪些概念是HBase框架中使用的？A、C AHDFSBGridFSCZookeeperDEXT3
10.下面对LSM结构描述正确的是？A、CA顺序存储B直接写硬盘C需要将数据Flush到磁盘D是一种搜索平衡树
11HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。A、DA是byte[]数组B没有固定的结构C数据的大小是定长的D有固定的结构
12.HBase性能优化包含下面的哪些选项？A、B、C、DA读优化B写优化C配置优化
13.FusionInsightHD集群升级，一下描述正确的是？（ABCD）A.升级过程中不可以操作准备OMS倒换;(正确答案)B.集群内所有主机的root账户密码要保持一致;(正确答案)C.保持网络通畅，避免网络问题导致升级异常;(正确答案)D.观察期不能做扩容;(正确答案
14.FusionInsightManager与外部管理平台对接时，支持哪些接口？（AD）A.SNMP;(正确答案)B.VPN;C.BGP;D.Syslog;(正确答案)
15.9.HBase的数据文件HFile中一个KeyValue格式包含哪些信息？（）A.Key;(正确答案)B.Value;(正确答案)C.TimeStamp;(正确答案D.KeyType;(正确答案)
16.FusionInsightHG集群规划设计时，集群有150个节点，并采用双面组网部署，对于该集群网络宽带要求的描述，下面描述正确的有？（ACE）A.业务平面所有节点都使用10GE网络;(正确答案)B.管理平面中控制节点使用10GE网络;C.管理平面中数据节点使用1GE网络(正确答案)D.业务平面中控制节点使用1GE网络;E.管理平面管理节点使用10GE网络;(正确答案)
17.Hive支持的储存格式包括？（BCD）A.HFile;B.TextFile;(正确答案)C.SequenceFile;(正确答案)D.RCFile;(正确答案)BCD）

18.华为FusionInsightHD集群中，Spark服务可以从以下哪些服务读取数据？（）A.YARN;B.HDFS;(正确答案)C.Hive;(正确答案)D.HBase;(正确答案)
19.FusionInsightHD系统中，关于Solr索引的存储部署一下说法正确的有（）A.利用HDFS数据存储可靠性和易于扩容的特点优先选择索引存
储与HDFS。;(正确答案)B.不论Solr索引存储在HDFS上还是存储在本地磁盘，在同一个节点上都必须要部署5个Solr实例，根据ip和不同的端口号来区分不同的实例;C.当对实例索引录入速度要求较高时，可选择索引存放于本地磁盘;(正确答案)D.当索引数据存放在HDFS上时，SolrServer实例与DataNode实例部署在同一个节点上;(正确答案)

0.下面哪些概念是HBase框架中使用的？A、CAHDFS BGridFSCZookeeperDEXT3

判断题：
1.Ganglia不仅可以进行监控，也可以进行告警。（正确）
2.BlockSize是不可以修改的。（错误）
3.Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误）
4.如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错误）
5.ClouderaCDH是需要付费使用的。（错误）
6.Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错误）
7.Hadoop支持数据的随机读写。（错）
8.NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（错误）
9.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误）
10.Slave节点要存储数据，所以它的磁盘越大越好。（错误）
11.hadoopdfsadmin–report命令用于检测HDFS损坏块。（错误）
12.Hadoop默认调度器策略为FIFO（正确）
13.集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（错误）
14.因为HDFS有多个副本，所以NameNode是不存在单点问题的。（错误）
15.每个map槽就是一个线程。（错误）
16.Mapreduce的inputsplit就是一个block。（错误）
17.DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要NameNode执行“Hadoopnamenode-format”操作格式化磁盘。（错误）
18.NameNode的WebUI端口是50030，它通过jetty启动的Web服务。（错误）
19.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。（错误）
20.FLume的数据流可以根据headers的信息发送到不同的channl中（正确）

填空题
1、hadoop 2.0 hdfs的默认block size 的大小是 128 MB
2、hbase 依靠 hdfs 存储底层数据
3、hbase 依靠 zookeeper 提供消息通信息机制
4、hbase中LSM含义是日志结构合并树
5、Hfile 数据格式中的Data 字段用于存储实际的 keyvalue 数据
6、配置hadoop时，java_home包含在 hadoop-env.sh 配置文件中
7、hdfs中的block默认保存 3 份
8、datanode负责hdfs数据存储
9、hadoop中使用 zookeeper 组件实现hadoop namenode ha。
10、hadoop使用自已的序列代格工为writeable
11、rdd 叫做spark的分布式数据集。
12、RDD和它的父RDD的关系有两种依赖类型：窄依赖和宽依赖
13、有向无环图英文简称：DAG
14、实现spark 共享变量有：广播变量和累加器
15、hive自定义函数的类型：UDF、UDAF、UDTF
16、hadoop集群有90个节点，如果控制节规划了3个，数据节点规划 87最为合适
17、lucene是支持随机读写的，而HDFS只是支持随机读，但是HBase可以来补救.
18\secondaryNode目的是帮助NameNode合并编辑日志，减少nameNode启动时间。
19\YARN的调度算法:FIFO Scheduler、Fair Scheduler、Capacity Scheduler。
20、hadoop 2.0 中 resource manager 程序通常与namenode在一个节点启动

回答题：

1、
Kafka都有哪些特点？
•高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition,consumergroup对partition进行consume操作。•可扩展性：kafka集群支持热扩展•持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失•容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）•高并发：支持数千个客户端同时读写

2、Kafka分区的目的？分区对于Kafka集群的好处是：实现负载均衡。分区对于消费者来说，可以提高并发度，提高效率。

3、你知道Kafka是如何做到消息的有序性？
kafka中的每个partition中的消息在写入时都是有序的，而且单独一个partition只能由一个消费者去消费，可以在里面保证消息的顺序性。但是分区之间的消息是不保证有序的。

4、请简述下你在哪些场景下会选择Kafka？
•日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、HBase、Solr等。•消息系统：解耦和生产者和消费者、缓存消息等。•用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。•运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。•流式处理：比如sparkstreaming和Flink

5、hive like和rlike的区别
like：like是模糊匹配查询
rlike：rlike支持正则表达式。