面试学习
Carson_xcb
但行耕耘,莫问收获
展开
-
大数据hadoop3.1.3——Flume面试题
企业真实面试题(重点)1 你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。2 Flume的Source,Sink,Channel的作用?你们Source是什么类型?1)作用(1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、...原创 2020-06-26 16:17:52 · 212 阅读 · 0 评论 -
大数据hadoop3.1.3——Hadoop序列化以及案例操作
1、序列化概述2、自定义bean对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造 public FlowBean() {...原创 2020-04-16 21:01:19 · 321 阅读 · 0 评论 -
大数据hadoop3.1.3——MapReduce学习(基础概念)
1、MapReduce概述1、MapReduce定义2、MapReduce优缺点1 优点2 缺点3、MapReduce核心思想1)分布式的运算程序往往需要分成至少2个阶段。2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4)MapRed...原创 2020-04-16 18:58:53 · 742 阅读 · 0 评论 -
大数据hadoop3.1.3——HDFS系统之小文件存档、纠删码操作
1、小文件存档3.案例实操(1)需要启动YARN进程 start-yarn.sh(2)归档文件把/user/caron/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/caron/output路径下。bin/hadoop archive -archiveName input.har –p /user/caron/input /u...原创 2020-04-15 20:53:24 · 762 阅读 · 0 评论 -
大数据hadoop3.1.3——HDFS系统之DataNode学习(开发)
1 DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,...原创 2020-04-15 20:17:38 · 412 阅读 · 0 评论 -
NameNode和SecondaryNameNode——多目录配置(面试开发重点)
1 NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新Fs...原创 2020-04-15 15:56:08 · 288 阅读 · 0 评论