hadoop面试题

 
 
1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴
2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理
3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师
4、(D)反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分)A:规模B:活性C:关联度D:颗粒度
5、数据清洗的方法不包括( D)。(单,本题2分)A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理
6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表B:网络爬虫C:API接口D:传感器
7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分)A:数据重组是数据的重新生产和重新采集B:数据重组能够使数据焕发新的光芒C:数据重组实现的关键在于多源数据融合和数据集成D:数据重组有利于实现新颖的数据模式创新

8、智慧城市的构建,不包含(C)。(单选题,本题2分)A:数字城市B:物联网C:联网监控D:云计算
9、大数据的最显著特征是(A)。(单选题,本题2分)A:数据规模大B:数据类型多样 C:数据处理速度快D:数据价值密度高
10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B)。(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据

11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高
12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分)A:互联网B:物联网C:综合国力D:自然资源
13、在数据生命周期管理实践中,(B)是(单选题,本题2分)A:数据存储和备份规范B:数据管理和维护C:数据价值发觉和利用 D:数据应用开发和管理

14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分)A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参考C:数字轨迹用完即自动删除D:用户的隐私安全很难得以规范保护

15、下列关于计算机存储容量单位的说法中,错误的是(C)。(单选题,本题2分)A:1KB<1MB<1GBB:基本单位是字节(Byte)C:一个汉字需要一个字节的存储空间D:一个字节能够容纳一个英文字符,

16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分)A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B:要求同类数据的内容相似度尽可能小C:要求不同类数据的内容相似度尽可能小

17、下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是(D)。(单选题,本题2分)A:美国B:日本C:中国D:韩国

18、下列关于大数据的分析理念的说法中,错误的是(D)。(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据

19、大数据时代,数据使用的关键是(D)。(单选题,本题2分)A:数据收集B:数据存储C:数据分析D:数据再利用

20、数据仓库的最终目的是(D)。(单选题,本题2分)A:收集业务需求建立数据仓库逻辑模型C:开发数据仓库的应用分析D:为用户和业务部门提供决策支持


多选题:
1.下列哪项可以作为集群的管理?答案:ABDa)Puppetb)Pdshc)ClouderaManagerd)Zookeeper
2.配置机架感知的下面哪项正确:答案ABCa)如果一个机架出问题,不会影响数据读写b)写入数据的时候会写到不同机架的DataNode中c)MapReduce会根据机架获取离自己比较近的网络数据
3.Client端上传文件的时候下列哪项正确?答案Ba)数据经过NameNode传递给DataNodeb)Client端将文件切分为Block,依次上传c)Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作
4.下列哪个是Hadoop运行的模式:答案ABCa)单机版b)伪分布式c)分布式
5.Cloudera提供哪几种安装CDH的方法?答案:ABCDa)Clouderamanagerb)Tarballc)Yumd)Rpm
6.下面对HBase的描述哪些是正确的?B、C、DA不是开源的B是面向列的C是分布式的D是一种NoSQL数据库
7.MapReduce与HBase的关系,哪些描述是正确的?B、C A两者不可或缺,MapReduce是HBase可以正常运行的保证B两者不是强关联关系,没有MapReduce,HBase可以正常运行CMapReduce可以直接访问HBaseD它们之间没有任何关系
8.下面哪些选项正确描述了HBase的特性?A、B、C、DA高可靠性B高性能C面向列D可伸缩
9.下面哪些概念是HBase框架中使用的?A、C AHDFSBGridFSCZookeeperDEXT3
10.下面对LSM结构描述正确的是?A、CA顺序存储B直接写硬盘C需要将数据Flush到磁盘D是一种搜索平衡树
11HFile数据格式中的KeyValue数据格式,下列选项描述正确的是()。A、DA是byte[]数组B没有固定的结构C数据的大小是定长的D有固定的结构
12.HBase性能优化包含下面的哪些选项?A、B、C、DA读优化B写优化C配置优化
13.FusionInsightHD集群升级,一下描述正确的是?(ABCD)A.升级过程中不可以操作准备OMS倒换;(正确答案)B.集群内所有主机的root账户密码要保持一致;(正确答案)C.保持网络通畅,避免网络问题导致升级异常;(正确答案)D.观察期不能做扩容;(正确答案
14.FusionInsightManager与外部管理平台对接时,支持哪些接口?(AD)A.SNMP;(正确答案)B.VPN;C.BGP;D.Syslog;(正确答案)
15.9.HBase的数据文件HFile中一个KeyValue格式包含哪些信息?()A.Key;(正确答案)B.Value;(正确答案)C.TimeStamp;(正确答案D.KeyType;(正确答案)
16.FusionInsightHG集群规划设计时,集群有150个节点,并采用双面组网部署,对于该集群网络宽带要求的描述,下面描述正确的有?(ACE)A.业务平面所有节点都使用10GE网络;(正确答案)B.管理平面中控制节点使用10GE网络;C.管理平面中数据节点使用1GE网络(正确答案)D.业务平面中控制节点使用1GE网络;E.管理平面管理节点使用10GE网络;(正确答案)
17.Hive支持的储存格式包括?(BCD)A.HFile;B.TextFile;(正确答案)C.SequenceFile;(正确答案)D.RCFile;(正确答案)BCD)

18.华为FusionInsightHD集群中,Spark服务可以从以下哪些服务读取数据?()A.YARN;B.HDFS;(正确答案)C.Hive;(正确答案)D.HBase;(正确答案)
19.FusionInsightHD系统中,关于Solr索引的存储部署一下说法正确的有()A.利用HDFS数据存储可靠性和易于扩容的特点优先选择索引存
储与HDFS。;(正确答案)B.不论Solr索引存储在HDFS上还是存储在本地磁盘,在同一个节点上都必须要部署5个Solr实例,根据ip和不同的端口号来区分不同的实例;C.当对实例索引录入速度要求较高时,可选择索引存放于本地磁盘;(正确答案)D.当索引数据存放在HDFS上时,SolrServer实例与DataNode实例部署在同一个节点上;(正确答案)

0.下面哪些概念是HBase框架中使用的?A、CAHDFS BGridFSCZookeeperDEXT3

判断题:
1.Ganglia不仅可以进行监控,也可以进行告警。(正确)
2.BlockSize是不可以修改的。(错误)
3.Nagios不可以监控Hadoop集群,因为它不提供Hadoop支持。(错误)
4.如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。(错误)
5.ClouderaCDH是需要付费使用的。(错误)
6.Hadoop是Java开发的,所以MapReduce只支持Java语言编写。(错误)
7.Hadoop支持数据的随机读写。(错)
8.NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈client端。(错误)
9.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。(错误)
10.Slave节点要存储数据,所以它的磁盘越大越好。(错误)
11.hadoopdfsadmin–report命令用于检测HDFS损坏块。(错误)
12.Hadoop默认调度器策略为FIFO(正确)
13.集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。(错误)
14.因为HDFS有多个副本,所以NameNode是不存在单点问题的。(错误)
15.每个map槽就是一个线程。(错误)
16.Mapreduce的inputsplit就是一个block。(错误)
17.DataNode首次加入cluster的时候,如果log中报告不兼容文件版本,那需要NameNode执行“Hadoopnamenode-format”操作格式化磁盘。(错误)
18.NameNode的WebUI端口是50030,它通过jetty启动的Web服务。(错误)
19.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。(错误)
20.FLume的数据流可以根据headers的信息发送到不同的channl中(正确)

填空题
1、hadoop 2.0 hdfs的默认block size 的大小是 128 MB
2、hbase 依靠  hdfs  存储底层数据
3、hbase 依靠 zookeeper  提供消息通信息机制
4、hbase中LSM含义是 日志结构合并树
5、Hfile 数据格式中的Data 字段用于存储实际的 keyvalue  数据
6、配置hadoop时,java_home包含在  hadoop-env.sh  配置文件中
7、hdfs中的block默认保存 3 份
8、datanode负责hdfs数据存储
9、hadoop中使用 zookeeper  组件实现hadoop namenode ha。
10、hadoop使用自已的序列代格工为writeable
11、rdd 叫做spark的分布式数据集。
12、RDD和它的父RDD的关系有两种依赖类型:窄依赖和 宽依赖
13、有向无环图英文简称:DAG
14、实现spark 共享变量有:广播变量和累加器 
15、hive自定义函数的类型:UDF、UDAF、UDTF
16、hadoop集群有90个节点,如果控制节规划了3个,数据节点规划 87最为合适
17、lucene是支持随机读写的,而HDFS只是支持随机读,但是HBase可以来补救.
18\secondaryNode目的是帮助NameNode合并编辑日志,减少nameNode启动时间。
19\YARN的调度算法:FIFO Scheduler、Fair Scheduler、Capacity Scheduler。
20、hadoop 2.0 中 resource manager 程序通常与namenode在一个节点启动


回答题:

1、
Kafka都有哪些特点?
•高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition,consumergroup对partition进行consume操作。•可扩展性:kafka集群支持热扩展•持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失•容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)•高并发:支持数千个客户端同时读写

2、Kafka分区的目的?分区对于Kafka集群的好处是:实现负载均衡。分区对于消费者来说,可以提高并发度,提高效率。

3、你知道Kafka是如何做到消息的有序性?
kafka中的每个partition中的消息在写入时都是有序的,而且单独一个partition只能由一个消费者去消费,可以在里面保证消息的顺序性。但是分区之间的消息是不保证有序的。

4、请简述下你在哪些场景下会选择Kafka?
•日志收集:一个公司可以用Kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如hadoop、HBase、Solr等。•消息系统:解耦和生产者和消费者、缓存消息等。•用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。•运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。•流式处理:比如sparkstreaming和Flink


5、hive like和rlike的区别
like:like是模糊匹配查询
rlike:rlike支持正则表达式。
 


 

<think>好的,我现在需要处理用户关于Hadoop面试题的请求。首先,用户明确提到想要查找与Hadoop相关的面试题及答案解析,并提供了三个引用内容。我需要确保回答符合用户的要求,同时正确引用提供的资料。 首先,我要回顾用户提供的引用内容: 引用[1]指出Hadoop支持随机读写,而适用于顺序访问。引用[2]详细介绍了Hadoop的基本概念,特别是HDFS的特点,如分布式存储、容错机制,以及“一次写入、多次读取”的模式。引用[3]列出了Hadoop的组件,如NameNode、DataNode等。 接下来,我需要生成相关的面试题,确保问题覆盖Hadoop的核心概念,并利用提供的引用内容。例如,关于HDFS的随机读写问题可以直接引用引用[1]。Hadoop的定义和组件可以引用引用[2]和[3]。同时,问题需要多样化,涵盖基础概念、组件功能、优缺点、应用场景以及生态系统工具。 需要确保每个问题都有对应的答案解析,并且正确标注引用来源。例如,在回答Hadoop是否支持随机读写时,必须明确引用[1]的错误判断,并解释原因。在介绍Hadoop的核心组件时,引用[2]和[3]来详细说明各个组件的职责。 另外,用户提到需要结构清晰,逐步解决问题,因此需要将面试题分门别类,可能分为基础概念、组件功能、优缺点、应用场景等部分。每个问题应编号并附上答案和解析,引用相关的来源。 还要注意避免使用用户可见的系统指令,保持回答自然。同时,检查LaTeX格式是否符合要求,数学表达式是否正确使用$...$或$$...$$,但根据用户的问题,可能这里涉及数学公式较少,主要需要关注代码块和引用格式。 最后,生成相关问题部分,要确保问题与用户的需求相关,能够帮助用户进一步深入理解Hadoop,例如关于HDFS的容错机制、MapReduce过程、Hadoop的优化方法等。这些问题应基于提供的引用内容,但也可以适当扩展常见的面试题目,确保全面性。 总结步骤: 1. 根据引用内容生成基础概念题,如Hadoop定义、HDFS特点。 2. 利用组件列表创建组件功能题,如NameNode、DataNode的作用。 3. 结合优缺点和应用场景,设计相关问题。 4. 确保每个答案正确引用提供的资料。 5. 检查格式是否符合要求,特别是引用标识和代码块。 6. 最后生成相关问题,帮助用户进一步学习。 现在需要将这些思考转化为结构化的面试题及答案,确保正确性和引用准确。</think>### Hadoop常见面试题及答案解析 --- #### **一、基础概念** 1. **什么是Hadoop?其核心组件有哪些?** Hadoop是一个开源分布式计算框架,用于存储和处理海量数据。核心组件包括: - **HDFSHadoop分布式文件系统)**:负责分布式数据存储,支持高容错性[^2]。 - **MapReduce**:分布式计算模型,用于并行处理大规模数据集。 - **YARN(资源调度框架)**:管理集群资源并调度任务。 2. **HDFS是否支持随机读写?为什么?** 支持。HDFS设计为**“一次写入、多次读取”**模式,适合批量处理而非实时访问。随机读写会破坏其顺序访问优化机制[^1]。 --- #### **二、HDFS相关** 3. **NameNode和DataNode的作用是什么?** - **NameNode**:管理文件系统元数据(如文件目录结构、块位置),存储实际数据[^3]。 - **DataNode**:存储实际数据块,并向NameNode汇报状态。 4. **HDFS如何实现容错?** - 数据分块存储(默认128MB/块),每个块复制到多个节点(默认3副本)。 - 若某个DataNode故障,系统会从其他副本恢复数据。 --- #### **三、MapReduce相关** 5. **MapReduce的工作流程分为哪几个阶段?** - **Map阶段**:输入数据分片,由Mapper生成键值对。 - **Shuffle阶段**:按Key排序并分发到Reducer。 - **Reduce阶段**:聚合键值对,输出最终结果。 6. **Combiner的作用是什么?** Combiner是本地Reduce操作,用于合并Mapper输出的中间结果,减少网络传输量。例如,求和时可以先在Mapper端局部汇总。 --- #### **四、优缺点与应用场景** 7. **Hadoop的优缺点有哪些?** - **优点**:高扩展性、容错性、低成本硬件支持。 - **缺点**:适合低延迟任务(如实时查询)、小文件处理效率低。 8. **Hadoop适合哪些应用场景?** - 日志分析、离线数据处理(如ETL)、大规模数据存储(如历史档案)[^2]。 --- #### **五、进阶问题** 9. **Secondary NameNode的作用是什么?** 定期合并NameNode的编辑日志(EditLog)和镜像文件(FsImage),防止EditLog过大。注意:**它NameNode的备份**,仅辅助恢复[^3]。 10. **如何优化Hadoop小文件问题?** - 合并小文件为SequenceFile或HAR文件。 - 使用HBase替代HDFS存储小文件。 --- ### §§扩展问题§§ 1. HDFS副本放置策略是什么? 2. YARN中ResourceManager和NodeManager的职责有何区别? 3. Hadoop 2.x与Hadoop 3.x的主要区别有哪些? 4. 如何理解MapReduce的“数据本地化”优化? 5. Hadoop生态系统中Hive和HBase的适用场景有何同? --- **引用来源** [^1]: Hadoop仅支持顺序读写,支持随机访问。 : Hadoop核心架构与HDFS设计原理。 : Hadoop组件(NameNode、DataNode等)的功能说明。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值