大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm

本文详细介绍了大数据领域的核心组件,包括Hadoop家族的HDFS、MapReduce、Hive、Pig、HBase、Zookeeper等,以及Cloudera的产品,如Cloudera Manager、CDH、Flume、Impala和Hue。此外,还讨论了Spark的内存分布式数据集特性和与Hadoop的交互,以及Storm的实时计算能力。通过对这些技术的了解,读者可以更好地理解大数据架构和选择适合的工具。
摘要由CSDN通过智能技术生成

大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好 的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。

我们可以带着下面问题来阅读本文章:
1.hadoop都包含什么技术?
2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性?
3.Spark与hadoop的关联是什么?
4.Storm与hadoop的关联是什么?

hadoop家族

大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm

创始人:Doug Cutting

整个Hadoop家族由以下几个子项目组成:

Hadoop Common:

Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。

HDFS:

是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很 多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

MapReduce:

是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值