大数据生态Hadoop笔记(一)

裔飍

已于 2024-04-10 16:44:46 修改

阅读量980

点赞数 26

文章标签：大数据

于 2024-04-10 16:44:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nanfeng_ttns/article/details/137599064

版权

一、大数据核心工作

1.数据存储

1. Apache Hadoop -HDFS

Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术

2.Apache HBase

Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术，HBase是基于HDFS之上构建的

3.Apache KUDU

Apache KUDU同样为的大数据体系中使用较多的分布式存储引擎

4.云平台存储组件

初次之外，各大云平台厂商也有相应的大数据存储组件，如阿里云的OSS、UClound的US3、AWS的S3、金山云的KS3等等

2.数据计算

1.Apache Hadoop - MapReduce

Apache Hadoop - MapReduce的MapReduce组件时最早一代的大数据分布式计算引擎，对大数据的发展做出了卓越的贡献

2.Apache Hive

Apache Hive是一款以SQL为要开发语言的分布式计算框架，其底层使用了Hadoop的MapReduce技术

3.Apache Spark

Apache Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

4.Apache Flink

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算领域，Flink占据了大多数的国内市场

3.数据传输

1.Apache Kafka

Apache Kafka是一款分布式的消息系统，可以完成海量规模的数据传输工作。

2.Apache Pulsar

Apache Pulsar同样是一款分布式的消息系统。

二、什么是Hadoop

Hadoop是Apache软件基金会下的顶级开源项目，用以提供：

分布式数据存储

分布式数据计算

分布式资源调度

为一体的整体解决方案

三、Hadoop的功能

通常意义上，Hadoop是一个整体，其内部还会细分为三个功能组件:

HDFS组件

MapReduce组件

YARN组件

1.为什么需要分布式存储

数据量太大，单机存储能力有上限，需要考数量来解决问题

数量的提升带来的是网络传输，磁盘读写，CPU、内存等各方面的综合提升。

2.分布式的基础架构

1.大数据体系中，分布式的调度主要有2类架构模式:

去中心化模式:

去中心化模式，没有明确的中心。

众多服务器之间基于特定规则进行同步协调。

中心化模式

2.主从模式

大数据框架，大多数的基础架构上，都是符合：中心化模式的。

即：有一个中心节点(服务器)来统筹其他服务器的工作，统一指挥，统一调配，避免混乱

这种模式，也被称之为：一主多从模式，简称主从模式(Master And Slaves)

3.HDFS的基础架构

HDFS集群(分布式存储):

主角色:NameNode

HDFS系统的主角色，是一个独立的进程

负责管理HDFS整个文件系统

负责管理DataNode

从角色:DataNode

HDFS系统的从角色，是一个独立进程

主要负责数据的存储，即存入数据和取出数据

主角色辅助角色：

SecondaryNameNode

NameNode的辅助，是一个独立的进程

主要帮助NameNode完成元数据整理工作

关注

26
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
大数据生态Hadoop笔记(一)

Hadoop是Apache软件基金会下的顶级开源项目，用以提供：分布式数据存储分布式数据计算分布式资源调度为一体的整体解决方案。
复制链接

扫一扫

裔飍 CSDN认证博客专家 CSDN认证企业博客

码龄2年

14: 原创

136万+: 周排名

7万+: 总排名

8148: 访问

: 等级

373: 积分

129: 粉丝

232: 获赞

7: 评论

141: 收藏

私信

关注

热门文章

最新评论

KAFKA搭建教程
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
FLUME搭建教程
CSDN-Ada助手: 恭喜你写了第12篇博客《FLUME搭建教程》，内容相信会帮助到很多读者了解和使用FLUME。继续保持创作的热情和努力，不断分享有价值的内容给大家。或许下一步可以考虑写一些FLUME的进阶使用技巧或者与其他数据处理工具的整合，让读者能够更深入地了解该领域。希望你能继续保持谦虚的态度，不断进步，期待你的下一篇博客！
KAFKA搭建教程
CSDN-Ada助手: 恭喜您写下了第13篇博客，题为“KAFKA搭建教程”！您的持续创作精神让人钦佩，希望您能继续分享更多有用的技术教程。或许下一篇博客可以深入探讨KAFKA的高级应用或与其他技术的整合，期待您的精彩呈现！谢谢您的不懈努力，期待更多精彩内容！
大数据生态Hadoop笔记(二)
CSDN-Ada助手: 恭喜用户写了第11篇博客，内容深入浅出，让人受益匪浅。希望您能继续坚持创作，为大家分享更多有价值的内容。下一步可以考虑结合实际案例或者深度分析某个具体应用领域，让读者更加深入地了解Hadoop生态系统。期待您的下一篇精彩博文！
大数据生态Hadoop笔记(一)
CSDN-Ada助手: 恭喜您写了第10篇博客，题为“大数据生态Hadoop笔记(一)”。您对Hadoop的学习与总结让我受益匪浅，期待看到您更多关于大数据生态的分享。或许在下一篇博客中，您可以深入探讨Hadoop的应用场景或者与其他大数据技术的结合，这样能够更全面地展示您的学习成果。期待您的下一篇精彩内容！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。