大数据小白系列
kissknife
这个作者很懒,什么都没留下…
展开
-
大数据小白系列——HDFS(3)
这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念。 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机制,一个Active NN,一个Standby NN。 现实常常是,解决一个问题的同时,免不了又引入了另外的问题。 谁来担任Active,谁来担任Standby? 两个NN谁也说服不了谁,...原创 2019-01-11 14:58:26 · 167 阅读 · 0 评论 -
大数据小白系列——HDFS(1)
这里是大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢对不对? 大数据是什么?抛开那些高大上但笼统的说法,我觉得大数据就是说两件事,一、怎么存储大数据,二、怎么计算大数据。 先从存储开始说,如果清晨起床,你的女仆给你呈上一块牛排,牛排太大,一口吃不了,怎么办?拿刀切小。 同样的,如果一份数据太大,一台机器存不了,怎么办?切小了,存到几台机器上。 想要保...原创 2019-01-02 13:38:57 · 204 阅读 · 0 评论 -
大数据小白系列——HDFS(2)
这里是大数据小白系列,这是本系列的第二篇,介绍HDFS中SecondaryNameNode、单点失败(SPOF)、以及高可用(HA)等概念。 上一篇我们说到了大数据、分布式存储,以及HDFS中的一些基本概念,为了能更好的理解后续介绍的内容,这里先补充介绍一下NameNode到底是怎么存储元数据的。 首先,在启动的时候,将磁盘中的元数据文件读取到内存,后续所有变化将被直接写入内存,同时被写入...原创 2019-01-07 12:13:36 · 163 阅读 · 0 评论 -
HDFS(4) - 一个真实世界的Hadoop集群
这里是大数据小白系列,这是HDFS系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation。 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: 这是真实世界的Hadoop集群: 因为,NameNode(下称NN)中的元数据记录了各个数据块的存储位置。所以,元数据的大小,与数据块的数量成正比。当集群存储的数据规模到达一...原创 2019-01-14 10:52:33 · 244 阅读 · 0 评论 -
MapReduce(1) —— 关于MapReduce的一些问答
一部编程的发展史就是一部程序员的偷懒史。——一个根本无法反驳的真理 MapReduce(下称MR)同样是程序员们用来偷懒的工具。 来了一份大数据,我们写了一个程序准备分析它,需要怎么做?老式的处理方法不行,数据量太大时,所需的时间无法忍受,所以,必须并行计算。好比1000块砖,1个人搬需要1小时,10个人同时搬,只需要6分钟。 不过进行并行计算,你面临几个细思头大问题: ...原创 2019-03-16 21:31:04 · 284 阅读 · 0 评论