Hadoop
weixin_43418390
这个作者很懒,什么都没留下…
展开
-
MapReduce运行流程详解
在MapReduce运行过程中,在上层主要有四个主体:客户端:提交MR任务JobTracker:协调作业的运行,主类为JobTrackerTastTracker:运行作用划分后的任务,主类为TastTracker共享文件系统:在其他实体之间共享文件,一般为HDFSMR工作机制1.提交作业:客户端启动一个Job;并向JobTracker请求一个作业ID,JobTracker检查作业输出(有没有指定输出路径、输出目录是否已存在)计算作业的输出切片;JobTracker会返回一个作业ID和资源的提原创 2020-09-13 20:40:30 · 204 阅读 · 0 评论 -
Sqoop基础指令
Sqoop简介Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升。如果要用Sqoop,必须正确安装并配置Hadoop,因依赖于本地的Hadoop环境启动MR程序;MySQL、Orac原创 2020-09-11 22:48:22 · 230 阅读 · 0 评论 -
Namenode知识点梳理
namenode的作用名字节点主要用来保存HDFS的元数据信息,比如命名空间信息,块信息。可以分为文件系统目录树管理:1.对文件/目录的元信息和文件的数据块索引管理(主要通过INode、Feature、FSEditLog、FSImage等相关类进行管理)2.对数据块和数据节点进行管理。namenode的高可用(HA)实现namenode的HA主要包括主备切换、共享日志存储。1.在集群中存在多个namenode,他们均处于active或standby状态。2.共享日志存储:active nameno原创 2020-09-10 17:20:01 · 906 阅读 · 0 评论 -
HDFS读写流程梳理
HDFS读写流程hdfs的读写主要设计Client、NameNode、DataNode等节点HDHS客户端进行文件读操作流程1.打开HDFS文件,构造DFSInputStream输入流HDFS客户端调用DistributesFileSystem.open()方法打开HDFS文件,其底层实际上是调用ClientPropocol.open()方法,返回一个HdfsDataInputStream(DFSInputStream的装饰类,真正进行读取操作是DFSInputStream)。2.从NameNo原创 2020-09-10 14:55:49 · 322 阅读 · 1 评论