hadoop开源组件功能描述

最新推荐文章于 2024-05-01 00:28:28 发布

三三三三酱

最新推荐文章于 2024-05-01 00:28:28 发布

阅读量880

点赞数

分类专栏：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35894821/article/details/79731790

版权

学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

随着现在科技的发展，我们随处都能留下数据信息，我们现在也正处于一个信息爆炸的时代，那什么是大数据？怎么才算是大数据？大数据有哪些特点？大数据的大不单单指数据量大，当数据规模对现有技术构成挑战的时候构成大数据，机器无法处理，传统的系统无法满足现有的需求时就可以被称为大数据。

首先大数据特点简单分为4V

1.value：可以带来信息价值

2. volume:数据量巨大

3. variety：数据的形式多种多样

4. velocity：数据的生产速度很多

一、大数据的开源组件

1.hadoop分布式数据平台（分布式存储 HDFS 分布式计算 mapreduce【提供批量计算有劣势】）

2.hbase：劣势数据库（存储在HDFS上），优势：查询速度很快

3.zookeeper：做协调，做节点和资源做协调

4.nutch：做分布式搜索引擎，做搜索引擎，进行大量数据采集的时候用，是hadoop的先驱。

5.storm：跟spark一样是计算引擎，可以进行流式计算

6.spark：计算引擎，在之上可以做内存计算实时计算，速度是hadoop的100倍

7.yarn：管理组件

haadoop原生的计算引擎是MapReduce 但是他在内存计算等不强大，就有了storm，spark。

hive：提供交互式语言（类sql，函数和语法，底层的引擎是MapReduce，对延迟要求高的，不适合用mapreduce）

impala：跟hive的作用相同，做交互查询，速度快，自己的计算引擎。

麒麟：底端是hadoop，hive，hbase，（把存在hadoop的数据，用hive计算，存在hbase），多维分区，秒级亚秒级，结果预存在hbase里，实时建Q

现有系统 ——》开源方式或者接口写入hadoop（通过spoop，kafka，flume）

二、hadoop 已经生成了自己的生态系

起源于Nutch（目的是构建大型的搜索引擎）

GFS（Google filesystem） MapReduce（分布式计算） Bigtable（谷歌的三篇论文）

HDFS MapReduce hbase

1.架构
master：主节点【namenode resourceManager】
slave：从节点【datanode nodemanager】

namenode:负责记录数据库的存储空间，与DataNode进行通信。
datanode：实际的数据存储，与namenode进行通信（心跳相应），以供决策。

hadoop的运行模式：

单机模式

伪分布式模式

分布式模式

三三三三酱

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。