hadoop
问道9527
这个作者很懒,什么都没留下…
展开
-
Hadoop各种压缩的应用场景与使用
什么是文件压缩?一个较大的文件经压缩后,产生了另一个较小容量的文件。而这个较小容量的文件,我们就叫它是这些较大容量的(可能一个或一个以上的文件)的压缩文件。而压缩此文件的过程称为文件压缩。MapReduce 为什么需要文件压缩?Hadoop 之所以需要进行文件压缩,是因为使用文件压缩可以减少文件存储所需要的空间,加快数据在网络和磁盘上的传输。处理大文件时...原创 2019-10-13 14:28:05 · 333 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2015-10-15 16:00:46 · 372 阅读 · 0 评论 -
Bloom Filter科普
Bloom Filter的中文翻译叫做布隆过滤器,是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。如文章标题所述,本文只是做简单介绍,属于科普文章。原创 2015-10-29 23:54:10 · 579 阅读 · 0 评论 -
MapReduce架构设计
MapReduce也是采用Master/Slave的架构,其架构图如下:它主要有以下4个部分组成:1)Client2)JobTrackerJobTracke负责资源监控和作业调度。JobTracker 监控所有TaskTracker 与job的健康状况,一旦发现失败,就将相应的任务转移到其他节点;同时,JobTracker 会跟踪任务的执行进度、资源使用量等信息,并转载 2015-10-15 17:14:17 · 443 阅读 · 0 评论 -
Namenode HA原理详解(脑裂)
Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 为什么要Namenode HA?1. NameNode High Availability即高可用。2. NameNode 很重要,挂掉会导致存储停止服务,无法进行数据的读写,基于此NameNode的计算(MR,转载 2016-11-13 21:15:30 · 1408 阅读 · 0 评论 -
HDFS 原理、架构与特性
1:当前HDFS架构详尽分析分享之前我还是要推荐下我自己创建的大数据学习资料分享群 232840209,这是全国最大的大数据学习交流的地方,2000人聚集,不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2017年学习的前端资料和零基础入门教程,欢迎初学和进阶中的小伙伴。HDFS架构•NameNode•Da原创 2017-11-19 15:00:23 · 339 阅读 · 0 评论 -
HDFS文件读写过程
HDFS读文件过程:客户端通过调用FileSystem对象的open()来读取希望打开的文件。对于HDFS来说,这个对象是分布式文件系统的一个实例。DistributedFileSystem通过RPC来调用namenode,以确定文件的开头部分的块位置。对于每一块,namenode返回具有该块副本的datanode地址。此外,这些datanode根据他们与client的距离来排原创 2017-03-27 23:51:49 · 1036 阅读 · 0 评论