Hadoop
文章平均质量分 91
野狼e族
忙是一种好事
展开
-
HDFS Federation机制
HDFS Federation机制一 为什么引入联盟框架 ?1.1 hdfs的局限性Namespace(命名空间)的限制由于Namenode在内存中存储所有的元数据(metadata),因此单个Namenode所能存储的对象(文件+块)数目受到Namenode所在JVM的heap size的限制。50G的heap能够存储20亿(200 million)个对象,这20亿个对象支持4000个datanode,12PB的存储(假设文件平均大小为40MB)。随着数据的飞速增长,存储的需求也随之增长。单个d原创 2022-02-06 17:14:28 · 1003 阅读 · 0 评论 -
Mysql 实时同步到大数据数仓
如何能够做到数据的实时同步呢?我们想到了MySQL主从复制时使用的binlog日志,它记录了所有的 DDL 和 DML 语句(除了数据查询语句select、show等),以事件形式记录,还包含语句所执行的消耗时间下面来看一下MySQL主从复制的原理,主要有以下几个步骤: master(主库)在每次准备提交事务完成数据更新前,将改变记录到二进制日志(binary log)中 sla...原创 2019-11-15 19:09:04 · 1503 阅读 · 0 评论 -
Hadoop报错集
1、 safeMode原因报错Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /user/root/.sparkStaging/application_...原创 2018-05-21 21:01:07 · 1372 阅读 · 0 评论 -
Hadoop YARN 搭建
一、架构讲解1 RM(ResourceManager) + N NM(NodeManager)ResourceManager的职责: 一个集群active状态的RM只有一个,负责整个集群的资源管理和调度1)处理客户端的请求(启动/杀死)2)启动/监控ApplicationMaster(一个作业对应一个AM)3)监控NM4)系统的资源分配和调度NodeManager:整个集群中有N个,负责单个节点的...原创 2018-05-21 20:48:28 · 794 阅读 · 0 评论 -
Hadoop HDFS 搭建
说明: ( 1) 1个文件会被拆分成多个(默认3份)Block,每个Block 默认128M (2) a. NameNode:负责客户端请求的响应、负责元数据(文件的名称、副本系数、Block存放的DN)的管理 b.DataNode:存储用户的文件对应的数据块(Block)、要定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况步骤:【1】...原创 2018-05-21 20:46:35 · 384 阅读 · 0 评论 -
HDFS 基本原理
随着互联网的发展,数据日益增多,增长超过了单机能够处理的上线,数据如何存储和处理成为了科技公司的难题,随着google的三篇论文的发布,大家终于找到了一个方案-分布式文件系统+MapReduce。Hadoop是参考google论文实现的,集成了分布式文件系统与分布式批处理平台。hadoop的设计目标是用来解决大文件海量存储和批处理的,为了避免单个节点故障导致数据丢失,设计副本冗余机制。 本文将主要...转载 2019-09-29 12:30:55 · 378 阅读 · 0 评论 -
fsimage与editlog详解
1 概述HDFS中的NameNode被称为元数据节点DataNode称为数据节点。NameNode维护了文件与数据块的映射表以及数据块与数据节点的映射表,而真正的数据是存储在DataNode上。对于NameNode如何存储这些信息,它维护两个文件,一个是fsimage,一个是editlog。2 fsimage与editlog作用fsimage保存了最新的元数据检查点,在HDFS启...原创 2019-09-29 13:26:46 · 898 阅读 · 0 评论