大数据开发的一次面试题及延伸

华润集团的大数据开发笔试题20道选择题,包括单选和多选题

一、单选题

1.关于SecondaryNameNode,哪一选项是正确的? (my:C)

A、它是NameNode的热备

B、它对内存没有要求

C、他的目的是帮助NameNode合并编辑日志,减少NameNode启动时间。

D、SecondaryNameNode应与NameNode部署到同一节点上。

2.Client端上传文件的时候下列哪项是正确的?(my:B)

A、数据经过NameNode传递给DataNode

B、Client端将文件切分为Block,依次上传

C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作

3.下面与HDFS类似的框架是?(my:C)

A、NTFS

B、FAT32

C、GFS

D、EXT3

4.以下描述错误的是?(my:D)

A、输入分片inputsplit其实是对数据的引用

B、MultipleInputs可以设置多个数据源以及它们对应的输入格式

C、可以通过重载isSplittable()方法来避免文件分片

D、ReduceTask需要等到所有的map输出都复制完才进行merge

5、以下哪种不是Hadoop对于小文件的处理方式 (my:D)

A、SequenceFile

B、ConbinedInputFormat

C、Archive

D、ByteBuffer

6、默认的Namenode web管理端口是?(my:A)

A、50070

B、8020

C、50030

D、22

7、关系型数据库与HDFS之间相互数据迁移的工具?(my:D)

A、distop

B、fsck

C、fastcopy

D、sqoop

8、hadoop2.x采用什么技术构建源代码?(my:C)

A、ant

B、ivy

C、maven

D、makefile

9、以下属于oozie作用的是?(my:C)
A、作业监控

B、日志收集

C、工作流调度

D、集群管理

10、下面那个类的声明是正确的?(my:D)

A、abstract final class A{}

B、abstract private B(){}

C、protected private C

D、public abstract class D{}

11、默认的mapreduce输入格式是?(my:A)

A、TextInputFormat

B、keyValue TextInputFormat

C、NlinearInputFormat

D、SequenceFileInputFormat

12、以下哪个组件可以指定对key进行reduce分发的策略?(my:C)

A、RecordReader

B、Combiner

C、Partitioner

D、FileInputFormat

13、以下哪些是是RDD的特点?(my: ABD)

A、可分区

B、可序列化

C、可修改

D、可持久化

14、关于spark累加器,下面哪些是正确的?(my:ABC)

A、支持加法

B、支持数值类型

C、可并行

D、不支持自定义类型

15、Spark支持的分布式部署方式中哪些是正确的?(my:ABC)

A、standalone

B、spark on mesos

C、spark on YARN

D、Spark on local

16、下列哪些是RDD的缓存方法?(my:AB)

A、persist

B、cache

C、memory

17.下面哪些对Hbase的描述是正确的?(my:BCD)
A、不是开源的

B、是面向列的

C、是分布式的

D、是一种NoSQL数据库

18、下面哪些概念是HBase框架中使用到的?(my:AC)

A、HDFS

B、GridFS

C、Zookeeper

D、ExT3

19.哪些组件的元数据存储在zookeeper中?(my:BC)

A、hbase

B、storm

C、kafka

D、spark

20.hadoop生态圈汇总的类sql查询引擎包括?(my:BD)

A、impala

B、prestodb

C、drill

D、hive

以上是我个人的答案,不知道正确与否,仅仅是作为一次面试的记录,有感兴趣的朋友,可以自己私下做一下相应的答案。

另附上一些相关材料:

hadoop生态圈各个组件简介

Hbase总结(六)hbase37个笔试题

Spark支持三种分布式部署方式

spark的广播变量和累加器的用法

Spark RDD概念学习系列之RDD的五大特征

RDD的5大特点

面试题--精选Hadoop选择题 important

MapReduce类型与格式(输入与输出)

hadoop最新自测题及答案

Hadoop关于处理大量小文件的问题和解决方法

关于hadoop处理大量小文件情况的解决方法

secondary namenode和namenode的区别

 

 

 

### 回答1: 大数据开发工程师的面试题通常包括:1. 对大数据技术的理解;2. 如何使用Hadoop构建大数据系统;3. 如何使用MapReduce来处理大数据;4. 如何使用Spark分析大数据;5. 如何使用NoSQL数据库构建大数据系统;6. 如何使用数据挖掘技术对大数据进行分析;7. 如何使用机器学习算法对大数据进行分析。 ### 回答2: 大数据开发工程师的面试题主要涉及以下几个方面: 1. 数据处理与分析能力:面试官可能会询问应聘者在大数据处理方面的经验和技能。比如,应聘者是否熟悉Hadoop、Spark等大数据处理框架,是否有使用过相关工具进行数据分析和处理的实际项目经验。 2. 编程与算法能力:作为一名开发工程师,编程和算法能力是不可或缺的。面试官可能会要求应聘者解释一些常用的数据处理算法,要求应聘者在写出算法的同时注重其时间和空间复杂度,并能针对实际问题给出对应的解题思路。 3. 数据存储与数据库:大数据处理需要有高效可靠的数据存储和数据库管理能力。应聘者需要了解不同的大数据存储方式,如HDFS和NoSQL数据库等,以及针对不同场景的选择和优化。 4. 数据挖掘与机器学习:大数据中的数据挖掘和机器学习是重要的应用领域。面试官可能会询问应聘者对于不同的数据挖掘和机器学习算法的熟悉程度,以及是否有实际项目应用经验。 5. 面试案例分析:面试官可能会给应聘者一个实际案例,并要求应聘者在面试时进行分析和解决方案的讨论。这可以考察应聘者的综合能力,包括对业务需求的理解、对问题的分析能力、解决方案的设计能力等。 总之,大数据开发工程师的面试主要考察应聘者在大数据处理、编程与算法、数据存储与数据库、数据挖掘与机器学习等方面的知识和实践经验。除了专业技能,应聘者还需要展示出沟通能力和解决问题的思维能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值