Hadoop初步理解

海星？海欣！

于 2023-02-16 09:52:30 发布

阅读量400

点赞数 2

分类专栏：大数据开发文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sun123234/article/details/129041459

版权

大数据开发专栏收录该内容

16 篇文章 0 订阅

订阅专栏

产生原因

在之前，数据量小，增长速度慢，且数据基本都是文件。储存和处理这些数据并不麻烦，单个存储单元和处理器组合就可以。
之后随着互联网发展，产生了大量多种形式的数据。
非结构化数据：邮件、图像、音频和视频等形式。这些与结构化数据一起称为大数据。此时，储存单元和处理器的组合显然不够
如何解决？
引入了hadoop框架，它通过使用硬件集群，可以有效地存储和处理大量数据

三大组件：HDFS、MapReduce、YARN

第一步存储数据
HDFS分布式文件系统，数据分布在许多计算机中并以块的形式存储。HDFS将数据存储在多个数据块上。如果其中一个数据点崩溃了–不会导致损失任何数据
HDFS对数据进行拷贝并将其存储在多个系统中。复制方法

第二步：数据处理。
之前放在单个处理器上处理，低效且费时。
MapReduce将数据分成多个部分，并在不同的数据节点上分别处理每个部分。然后将各个结果汇总并最终输出
例如统计文章中每个单词出现的次数：
步骤：输入 – 分割成不同的小部分 – 每一个部分进行分词统计 – 按同一个单词排序 – 汇总计数
在这里插入图片描述
这改善了负载平衡并节约了时间

第三步：
每个任务都需要硬件资源来支持完成，为了有效的管理这些资源，用到了第三个组件YARN

除了这三大组件外，HADOOP还有各种大数据工具和框架。专门用于管理、分析和处理数据，例如hive spark flume 和scoop等等

HDFS的三种模式的优势？

支持并行处理
更快的数据分析
确保容错
管理集群资源

概念理解

分布式：将不同的业务分布在不同的地方
集群：将几台服务器集中在一起，实现同一个业务
微服务：一种架构风格

岗位区别：

做菜过程：采购(数据开发)、清洗(ETL)、备菜(ETL)、摆盘(BI)、烹饪(数据分析)

hadoop主要要学的

三大组件：HDFS、MapReduce、YARN
学习对象：中台（集群+数据中台）+数据开发（算法，实时，离线），大学生

海星？海欣！

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop初步理解

Hadoop初步理解
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。