hadoop生态圈
文章平均质量分 95
Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点
Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈
小新学java
这个作者很懒,什么都没留下…
展开
-
尚硅谷HBase
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。原创 2023-05-26 15:41:59 · 343 阅读 · 0 评论 -
尚硅谷Zookeeper
Zookeeper是一个开源的分布式的,伪分布式框架提供协调服务的Apache项目。ZooKeeper是一个高可用的分布式数据管理和协调框架,并且能够很好的保证分布式环境中数据的一致性。在越来越多的分布式系统(Hadoop、HBase、Kafka)中,Zookeeper都作为核心组件使用。原创 2023-05-24 17:08:23 · 296 阅读 · 0 评论 -
尚硅谷Sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个(例如 :,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个项目。原创 2023-06-10 21:47:06 · 115 阅读 · 0 评论 -
尚硅谷Kafka
1、可以发布或订阅流式记录,类似MQ或消息系统。2、可以存储流式记录,并有较好的容错性。3、可以实时处理流式记录。原创 2023-06-04 15:48:47 · 591 阅读 · 0 评论 -
尚硅谷Flume
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。原创 2023-06-08 22:21:00 · 240 阅读 · 0 评论