大数据
ch3rry
每天早上醒来,看见你和阳光都在,这就是我想要的未来。
展开
-
HBase核心知识点总结
一、HBase介绍1、基本概念HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系。HBase被设计成在一个服务器集群上运行,可以相应地横向扩展。2、HBase使用场景和...转载 2018-11-22 19:47:18 · 247 阅读 · 0 评论 -
MapReduce 错误处理机制
MapReduce 任务执行过程中出现的故障可以分为两大类:硬件故障和任务执行失败引发的故障。1) 硬件故障在 Hadoop Cluster 中,只有一个 JobTracker,因此,JobTracker 本身是存在单点故障的。如何解决 JobTracker 的单点问题呢?我们可以采用主备部署方式,启动 JobTracker主节点的同时,启动一个或多个 JobTracker 备用节点。...原创 2019-04-26 23:15:16 · 841 阅读 · 0 评论 -
MapReduce工作原理
通过 Client、JobTrask 和 TaskTracker 的角度来分析 MapReduce 的工作原理:首先在客户端(Client)启动一个作业(Job),向 JobTracker 请求一个 Job ID。将运行作业所需要的资源文件复制到 HDFS 上,包括 MapReduce 程序打包的 JAR 文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在 JobTracker...原创 2019-04-27 22:09:28 · 4425 阅读 · 0 评论 -
Zookeeper数据模型
ZooKeeper 拥有一个层次的命名空间,这个和标准的文件系统非常相似从图中我们可以看出 ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,都是采用这种树形层次结构,ZooKeeper 树中的每个节点被称为—Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。但也有不同之处:1) 引用方式:Zonde 通过路径引用,如同 Unix 中...原创 2019-04-27 22:24:52 · 145 阅读 · 0 评论 -
Zookeeper访问控制
传统的文件系统中,ACL 分为两个维度,一个是属组,一个是权限,子目录/文件默认继承父目录的 ACL。而在 Zookeeper 中,node 的 ACL 是没有继承关系的,是独立控制的。Zookeeper 的 ACL,可以从三个维度来理解:一是 scheme; 二是 user; 三是 permission,通常表示为 scheme:id:permissions, 下面从这三个方面分别来介绍:1)...原创 2019-04-28 22:00:55 · 683 阅读 · 0 评论 -
HBase简介
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 是 Apache Hadoop 中的一个子项目,Hbase 依托于 Hadoop 的 HDFS 作为最基本存储基础单元,通过使用 hadoop 的 DFS 工具就可以看到这些这些数据存储文件夹的结构...原创 2019-04-29 22:36:24 · 265 阅读 · 0 评论 -
Hbase数据模型
HBase 以表的形式存储数据。表由行和列族组成。列划分为若干个列族(row family),其逻辑视图如下:几个关键概念:1) 行键(RowKey) 行键是字节数组, 任何字符串都可以作为行键; 表中的行根据行键进行排序,数据按照 Row key 的字节序(byte order)排序存储; 所有对表的访问都要通过行键 (单个 RowKey 访问,或 RowKey ...原创 2019-04-29 22:57:08 · 424 阅读 · 0 评论 -
MapReduce
目录:1.MapReduce简介2.MapReduce分而治之思想3.MapReduce执行流程4.MapReduce实现架构5.MapReduce任务提交流程MapReduce简介MapReduce MapReduce是一个用于处理海量数据的分布式计算框架 。- 此框架解决了:- 数据分布式存储- 作业调度- 容错- 机器间通信等复杂问...原创 2019-06-17 22:04:28 · 279 阅读 · 0 评论 -
深入理解HBase的系统架构
目录HBase的构成RegionsHBase的HMasterZooKeeperHBase各组成部分之间的合作HBase的第一次读写HBase的META tableRegion Server的组成HBase的写操作步骤步骤一步骤二HBase的MemStoreHBase Region FlushHFileHFile的结构HFile的索引...原创 2019-06-22 17:12:22 · 161 阅读 · 0 评论 -
MapReduce 数据本地化(Data-Local)
首先,HDFS 和 MapReduce 是 Hadoop 的核心设计。对于 HDFS,是存储基础,在数据层面上提供了海量数据存储的支持。而 MapReduce,是在数据的上一层,通过编写MapReduce 程序对海量数据进行计算处理。在前面 HDFS 章节中,知道了 NameNode 是文件系统的名字节点进程,DataNode是文件系统的数据节点进程。MapReduce 计算框架中负责计算任...原创 2019-04-26 23:13:13 · 1255 阅读 · 0 评论 -
MapReduce执行流程
MapReduce 计算框架的一般流程:1) 输入和拆分:不属于 map 和 reduce 的主要过程,但属于整个计算框架消耗时间的一部分,该部分会为正式的 map 准备数据。分片(split)操作:split 只是将源文件的内容分片形成一系列的 InputSplit,每个 InputSpilt 中存储着对应分片的数据信息(例如,文件块信息、起始位置、数据长度、所在节点列表…),并...原创 2019-04-26 23:11:51 · 218 阅读 · 0 评论 -
MapReduce/GFS/BigTable三大技术资料
出处:MapReduce/GFS/BigTable三大技术资料首先是在孟岩博客中发现以下内容:Google的三大核心技术MapReduce、GFS和BigTable的论文都已经被翻译成高质量的中文;三篇论文的链接地址如下:MapReduce:http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspxGFS:http...原创 2019-03-07 19:35:28 · 350 阅读 · 0 评论 -
HDFS 特点
HDFS 专为解决大数据存储问题而产生的,其具备了以下特点:1) HDFS 文件系统可存储超大文件每个磁盘都有默认的数据块大小,这是磁盘在对数据进行读和写时要求的最小单位,文件系统是要构建于磁盘上的,文件系统的也有块的逻辑概念,通常是磁盘块的整数倍,通常文件系统为几千个字节,而磁盘块一般为 512 个字节。HDFS 是一种文件系统,自身也有块(block)的概念,其文件块要比普通单一...原创 2019-04-07 23:23:19 · 1652 阅读 · 0 评论 -
不适用于 HDFS 的场景
1) 低延迟HDFS 不适用于实时查询这种对延迟要求高的场景,例如:股票实盘。往往应对低延迟数据访问场景需要通过数据库访问索引的方案来解决,Hadoop 生态圈中的Hbase 具有这种随机读、低延迟等特点。2) 大量小文件对于 Hadoop 系统,小文件通常定义为远小于 HDFS 的 block size(默认 64MB)的文件,由于每个文件都会产生各自的 MetaData 元数据,Ha...原创 2019-04-07 23:24:26 · 4051 阅读 · 0 评论 -
分布式文件系统HDFS介绍
分布式文件系统比较出名的有HDFS 和 GFS,其中HDFS比较简单一点。本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理。比一般PPT要通俗易懂很多。不难得的学习资料。1、三个部分: 客户端、nameserver(可理解为主控和文件索引,类似Linux的inode)、datanode(存放实际数据)在这里,client的形式我所了解的有两种,通过Hadoop...原创 2019-04-13 09:42:06 · 520 阅读 · 0 评论 -
Handoop之HDFS详解
Hadoop 3个核心组件:分布式文件系统:Hdfs——实现将文件分布式存储在很多的服务器上(hdfs是一个基于Linux本地文件系统上的文件系统)分布式运算编程框架:Mapreduce——实现在很多机器上分布式并行运算分布式资源调度平台:Yarn——帮用户调度大量的mapreduce程序,并合理分配运算资源HDFS的设计特点是:1、大数据文件,非常适合上T级别的大文件或者一堆...原创 2019-04-13 09:45:14 · 1478 阅读 · 0 评论 -
HDFS读取和写入流程
1) 读文件的过程: 首先 Client 通过 File System 的 Open 函数打开文件,Distributed File System 用 RPC调用 NameNode 节点,得到文件的数据块信息。对于每一个数据块,NameNode 节点返回保存数据块的数据节点的地址。Distributed File System 返回 FSDataInputStream 给客户...原创 2019-04-26 23:01:33 · 254 阅读 · 0 评论 -
操作HDFS的基本命令
1) 打印文件列表(ls)标准写法:hadoop fs -ls hdfs:/ #hdfs: 明确说明是 HDFS 系统路径简写:hadoop fs -ls / #默认是 HDFS 系统下的根目录打印指定子目录:hadoop fs -ls /package/test/ #HDFS 系统下某个目录2) 上传文件、目录(put、copyFromLocal)put 用法:上传新文件:h...原创 2019-04-26 23:03:02 · 1223 阅读 · 1 评论 -
MapReduce编程模型
Map 和 Reduce 的概念是从函数式变成语言中借来的,整个 MapReduce 计算过程分为 Map 阶段和 Reduce 阶段,也称为映射和缩减阶段,这两个独立的阶段实际上是两个独立的过程,即 Map 过程和 Reduce 过程,在 Map 中进行数据的读取和预处理,之后将预处理的结果发送到 Reduce 中进行合并。案例:分布式计算出一篇文章中的各个单词出现的次数,也就是 WordCo...原创 2019-04-26 23:08:20 · 334 阅读 · 0 评论 -
讲解Map/Reduce原理
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop:1.什么是Map/Reduce...转载 2018-06-08 10:24:58 · 431 阅读 · 0 评论