大数据面试
文章平均质量分 86
大数据面试
进军大数据的李华
这个作者很懒,什么都没留下…
展开
-
Hadoop 中问答题
当客户端对HDFS中的文件进行新增或者修改操作,操作记录首先被记入edits日志文件中,当客户端操作成功后,相应的元数据会更新到内存元数据中。fsimage和edits文件都是经过序列化的,在NameNode启动的时候,它会将fsimage文件中的内容加载到内存中,之后再执行edits文件中的各项操作,使得内存中的元数据和实际的同步,存在内存中的元数据支持客户端的读操作,也是最完整的元数据。(5)如果没有获取到所有的切片信息,再与距离最近其他切片副本所在的datanode建立通信通道,获取该节点的切片。原创 2023-06-30 17:20:18 · 423 阅读 · 0 评论 -
Hadoop阶段-面试
简单的描述,MR程序执行先从InputFormat类说起,由InputFormat负责数据读入,并在内部实现切片,每一个切片的数据对应生成一个MapTask任务,MapTask中按照文件的行逐行数据进行处理,每一行数据会调用一次我们自定义的Mapper类的map方法,map方法内部实现具体的业务逻辑,处理完数据会通过context对象将数据写出到磁盘(此处会经历Shuffle过程,详情请参考下面第七问!!!原创 2023-06-25 11:18:52 · 77 阅读 · 0 评论