hadoop开源组件功能描述

随着现在科技的发展,我们随处都能留下数据信息,我们现在也正处于一个信息爆炸的时代,那什么是大数据?怎么才算是大数据?大数据有哪些特点?大数据的大不单单指数据量大,当数据规模对现有技术构成挑战的时候构成大数据,机器无法处理,传统的系统无法满足现有的需求时就可以被称为大数据。

首先大数据特点简单分为4V 

1.value:可以带来信息价值

2. volume:数据量巨大

3. variety:数据的形式多种多样

4. velocity:数据的生产速度很多

一、大数据的开源组件


1.hadoop分布式数据平台(分布式存储 HDFS 分布式计算 mapreduce【提供批量计算 有劣势】)

2.hbase:劣势数据库(存储在HDFS上),优势:查询速度很快

3.zookeeper:做协调,做节点和资源做协调

4.nutch:做分布式搜索引擎,做搜索引擎,进行大量数据采集的时候用,是hadoop的先驱。

5.storm:跟spark一样是计算引擎,可以进行流式计算

6.spark:计算引擎,在之上可以做内存计算 实时计算,速度是hadoop的100倍

7.yarn:管理组件

 haadoop原生的计算引擎是MapReduce 但是他在内存计算等不强大,就有了storm,spark。

hive:提供交互式语言(类sql,函数和语法,底层的引擎是MapReduce,对延迟要求高的,不适合用mapreduce)

impala:跟hive的作用相同,做交互查询,速度快,自己的计算引擎。

麒麟:底端是hadoop,hive,hbase,(把存在hadoop的数据,用hive计算,存在hbase),多维分区,秒级 亚秒级,结果预存在hbase里,实时建Q

现有系统 ——》 开源方式或者接口写入hadoop(通过spoop,kafka,flume)

二、hadoop 已经生成了自己的生态系

起源于Nutch(目的是构建大型的搜索引擎)

GFS(Google filesystem)  MapReduce(分布式计算) Bigtable(谷歌的三篇论文)

HDFS MapReduce hbase

1.架构
master:主节点 【namenode resourceManager】
slave:从节点【datanode nodemanager】


namenode:负责记录数据库的存储空间,与DataNode进行通信。
datanode:实际的数据存储,与namenode进行通信(心跳相应),以供决策。
 
hadoop的运行模式:

单机模式

伪分布式模式

分布式模式








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值