大数据
介绍大数据的组件,总结大数据的知识点,包括hadoop、spark、flink、kafka等
罗啦啦
一个阳光、开朗、热情的大学生,对新技术非常关注,视野开拓,擅长编程,自学能力强,对各种新事物充满好奇心,喜欢大胆尝试和挑战。
展开
-
MapReduce的shuffle原理
1.shuffle简图2.shuffle细节图分区用到了分区器,默认分区器是HashPartitioner源码:public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> { public void configure(JobConf job) {} /** U...原创 2020-01-04 13:18:13 · 332 阅读 · 0 评论 -
HDFS的DataNode源码分析
1.大致流程DataNode.main() // 入口函数 |——secureMain(args, null); |——createDataNode(args, null, resources); // 创建DataNode |——instantiateDataNode(args, conf, resources); ...原创 2019-12-28 14:36:08 · 423 阅读 · 0 评论 -
HDFS的NameNode源码分析
1.大致流程NameNode.main() // 入口函数 |——createNameNode(); // 通过new NameNode()进行实例化 |——initialize(); // 方法进行初始化操作 |——startHttpServer(); // 启动HttpServer |——loadNamesyste...原创 2019-12-28 12:21:35 · 462 阅读 · 0 评论 -
HDFS文件压缩和小文件治理
1.文件压缩文件压缩好处: 减少数据所占用的磁盘空间 加快数据在磁盘、网络上的IO Hadoop的压缩实现类;均实现CompressionCodec接口压缩格式 对应的编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec gzip org.apache.hadoop.io.compr...原创 2019-12-28 12:10:42 · 749 阅读 · 0 评论 -
HDFS高可用与联邦机制
1.HDFS高可用 对于HDFS ,NN存储元数据在内存中,并负责管理文件系统的命名空间和客户端对HDFS的读写请求。但是,如果只存在一个NN,一旦发生“单点故障”,会使整个系统失效。 虽然有个SNN,但是它并不是NN的热备份 因为SNN无法提供“热备份”功能,在NN故障时,无法立即切换到SNN对外提供服务,即HDFS处于停服状态。 HDFS2.x采用了HA...原创 2019-12-28 11:57:04 · 811 阅读 · 0 评论 -
HDFS读写流程
1.写流程详细流程: 创建文件: HDFS客户端向HDFS写数据,先调用DistributedFileSystem.create()方法,在HDFS创建新的空文件 RPC(ClientProtocol.create())远程过程调用NameNode(NameNodeRpcServer)的create(),首先在HDFS目录树指定路径添加新文件 ...原创 2019-12-28 11:51:30 · 722 阅读 · 2 评论 -
HDFS的简单介绍及核心概念
1、HDFS是什么?HDFS是Hadoop生态圈的一个存储子模块,是一个分布式文件存储系统。 文件系统:操作系统中负责管理和存储文件信息的软件。具体地说,它负责为用户创建文件,存入、读出、修改、转储、删除文件等 分布式文件系统:当文件大小超出一台计算机的存储能力时,就有必要将它拆分成若干部分,然后分散到不同的计算机中存储,管理网络中跨多台计算机存储的文件系统称之...原创 2019-12-26 14:21:25 · 843 阅读 · 0 评论