自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(5)
  • 收藏
  • 关注

原创 MapReduce(1) —— 关于MapReduce的一些问答

一部编程的发展史就是一部程序员的偷懒史。——一个根本无法反驳的真理 MapReduce(下称MR)同样是程序员们用来偷懒的工具。 来了一份大数据,我们写了一个程序准备分析它,需要怎么做?老式的处理方法不行,数据量太大时,所需的时间无法忍受,所以,必须并行计算。好比1000块砖,1个人搬需要1小时,10个人同时搬,只需要6分钟。 不过进行并行计算,你面临几个细思头大问题: ...

2019-03-16 21:31:04 282

原创 HDFS(4) - 一个真实世界的Hadoop集群

这里是大数据小白系列,这是HDFS系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation。 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: 这是真实世界的Hadoop集群:   因为,NameNode(下称NN)中的元数据记录了各个数据块的存储位置。所以,元数据的大小,与数据块的数量成正比。当集群存储的数据规模到达一...

2019-01-14 10:52:33 244

原创 大数据小白系列——HDFS(3)

这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念。 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机制,一个Active NN,一个Standby NN。 现实常常是,解决一个问题的同时,免不了又引入了另外的问题。 谁来担任Active,谁来担任Standby? 两个NN谁也说服不了谁,...

2019-01-11 14:58:26 167

原创 大数据小白系列——HDFS(2)

这里是大数据小白系列,这是本系列的第二篇,介绍HDFS中SecondaryNameNode、单点失败(SPOF)、以及高可用(HA)等概念。 上一篇我们说到了大数据、分布式存储,以及HDFS中的一些基本概念,为了能更好的理解后续介绍的内容,这里先补充介绍一下NameNode到底是怎么存储元数据的。 首先,在启动的时候,将磁盘中的元数据文件读取到内存,后续所有变化将被直接写入内存,同时被写入...

2019-01-07 12:13:36 163

原创 大数据小白系列——HDFS(1)

这里是大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢对不对? 大数据是什么?抛开那些高大上但笼统的说法,我觉得大数据就是说两件事,一、怎么存储大数据,二、怎么计算大数据。 先从存储开始说,如果清晨起床,你的女仆给你呈上一块牛排,牛排太大,一口吃不了,怎么办?拿刀切小。 同样的,如果一份数据太大,一台机器存不了,怎么办?切小了,存到几台机器上。 想要保...

2019-01-02 13:38:57 204

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除