hadoop
文章平均质量分 90
五分钟学大数据
公众号:五分钟学大数据
展开
-
精选Hadoop高频面试题17道,附答案详细解析
Hadoophadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。本文首发于公众号【五分钟学大数据】,关注公众号,获取最新大数据技术文章1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程: Client客户端发送上传请求,通过RPC与NameNode建立通信,Nam原创 2021-07-03 15:42:18 · 4359 阅读 · 0 评论 -
面试系列一:精选大数据面试真题10道(混合型)-附答案详细解析
本公众号(五分钟学大数据)将推出大数据面试系列文章—五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂!大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点—融会贯通);专项型(一篇文章针对某个框架进行深入解析—专项演练)。此篇文章为系列文章的第一篇(混合型)第一题:大数据笔试题-Java相关(美菜网)写出下列程序的输出:class Father{ static { System.ou.原创 2021-02-22 14:09:26 · 8093 阅读 · 26 评论 -
Hive底层原理:explain执行计划详解
不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!理论本节将介绍 explain 的用法及参数介绍HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助使用语法如下:EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] queryexplain原创 2021-02-20 20:43:35 · 962 阅读 · 9 评论 -
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
1. HDFS概述Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFS(Hadoop Distributed原创 2021-02-08 20:23:29 · 1232 阅读 · 0 评论 -
详解Hadoop3.x新特性功能-HDFS纠删码
EC介绍 Erasure Coding 简称EC,中文名:纠删码EC(纠删码)是一种编码技术,在HDFS之前,这种编码技术在廉价磁盘冗余阵列(RAID)中应用最广泛(RAID介绍:大数据预备知识-存储磁盘、磁盘冗余阵列RAID介绍),RAID通过条带化技术实现EC,条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术,原理就是将一块连续的数据分成很多小部分并把他们分别存储到不同磁盘上去,这就能使多个进程同时访问数据的多个不同部分而不会造成磁盘冲突(当多个进程同时访问一个磁盘时,原创 2020-12-05 16:37:15 · 965 阅读 · 1 评论