weixin_43418390-CSDN博客

转载 Spark中Shuffle的前世今生

1.Shuffle的变迁 Spark 0.8及以前 Hash Based Shuffle Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制 Spark 0.9 引入ExternalAppendOnlyMap Spark 1.1 引入Sort Based Shuffle，但默认仍为Hash Based Shuffle Spark 1.2 默认的Shuffle方式改为Sort Based Shuffle Spark 1.4 引入Tungsten-Sort

2020-09-17 22:55:28 269

原创 MapReduce运行流程详解

在MapReduce运行过程中，在上层主要有四个主体：客户端：提交MR任务 JobTracker：协调作业的运行，主类为JobTracker TastTracker：运行作用划分后的任务，主类为TastTracker 共享文件系统：在其他实体之间共享文件，一般为HDFS MR工作机制 1.提交作业：客户端启动一个Job；并向JobTracker请求一个作业ID，JobTracker检查作业输出（有没有指定输出路径、输出目录是否已存在）计算作业的输出切片；JobTracker会返回一个作业ID和资源的提

2020-09-13 20:40:30 189

原创 Sqoop基础指令

Sqoop简介 Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。如果要用Sqoop，必须正确安装并配置Hadoop，因依赖于本地的Hadoop环境启动MR程序；MySQL、Orac

2020-09-11 22:48:22 199

原创 Namenode知识点梳理

namenode的作用名字节点主要用来保存HDFS的元数据信息，比如命名空间信息，块信息。可以分为文件系统目录树管理：1.对文件/目录的元信息和文件的数据块索引管理（主要通过INode、Feature、FSEditLog、FSImage等相关类进行管理）2.对数据块和数据节点进行管理。 namenode的高可用(HA)实现 namenode的HA主要包括主备切换、共享日志存储。 1.在集群中存在多个namenode，他们均处于active或standby状态。 2.共享日志存储：active nameno

2020-09-10 17:20:01 886

原创 HDFS读写流程梳理

HDFS读写流程 hdfs的读写主要设计Client、NameNode、DataNode等节点 HDHS客户端进行文件读操作流程 1.打开HDFS文件，构造DFSInputStream输入流 HDFS客户端调用DistributesFileSystem.open()方法打开HDFS文件，其底层实际上是调用ClientPropocol.open()方法，返回一个HdfsDataInputStream(DFSInputStream的装饰类，真正进行读取操作是DFSInputStream)。 2.从NameNo

2020-09-10 14:55:49 266 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人