Hadoop生态系统小记

最新推荐文章于 2020-12-15 08:36:00 发布

绝地反击T

最新推荐文章于 2020-12-15 08:36:00 发布

阅读量605

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

www.easyhadoop.com

Hadoop能解决哪些问题（Hadoop集群把淘汰的机器放在一起）
Hadoop需求
   海量数据需要及时分析和处理
   海量数据需要深入分析和挖掘
   数据需要长期保存

Hadoop的问题是：
   磁盘IO成为一种瓶颈，而非CPU资源
   网络带宽是一种稀缺资源
   硬件故障称为影响稳定的一大因素

淘宝阿里：国内使用Hadoop最深入的公司，整个taobao和阿里都是数据驱动的
数据魔方就是用Hadoop平台做的
Doug
Nutch搜索引擎里面的一个模块
受到Google三篇论文的启发--MapReduce GFS Bigtable
Google：mapreduce、GFS、Bigtable
Hadoop：mapreduce、HDFS、Hbase

Hadoop生态系统介绍
MapReduce:(这个模型70、80年代就有这个思想了，Google在2001？把他用起来了)
   1、编程模型，主要用来做数据的分析
   2、最大化利用CPU
HDFS：
   1、hadoop distribute file system分布式文件系统
   2、最大化利用磁盘
Hbase:
   1、Nosql数据库，Key-Value;
   2、最大化利用内存
HDFS篇
   文件以块(block)方式存储 64M（这一点表明Hadoop不适合求小的文件，）
   每个区块至少分到三台DataNode上
   客户端对文件没有缓存机制
   单一master(NameNode)来协调存储元数据(metadata)

NameNode的metadate信息在启动后会加载到内存
metadata存储到磁盘文件名为fsimage
block的位置信息不会保存到fsimage

DataNode:
   保存Block
   启动DN线程的时候会向NN汇报block信息
   通过向NN发送心跳保存与其联系

Block的副本放置策略
第一个副本
第二个副本
第三个副本

绝地反击T

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态系统小记

www.easyhadoop.comHadoop能解决哪些问题（Hadoop集群把淘汰的机器放在一起）Hadoop需求海量数据需要及时分析和处理海量数据需要深入分析和挖掘数据需要长期保存Hadoop的问题是：磁盘IO成为一种瓶颈，而非CPU资源网络带宽是一种稀缺资源硬件故障称为影响稳定的一大因素
复制链接

扫一扫

专栏目录