Hadoop初步理解

产生原因

在之前,数据量小,增长速度慢,且数据基本都是文件。储存和处理这些数据并不麻烦,单个存储单元和处理器组合就可以。
之后随着互联网发展,产生了大量多种形式的数据。
非结构化数据:邮件、图像、音频和视频等形式。这些与结构化数据一起称为大数据。此时,储存单元和处理器的组合显然不够
如何解决?
引入了hadoop框架,它通过使用硬件集群,可以有效地存储和处理大量数据

三大组件:HDFS、MapReduce、YARN

第一步存储数据
HDFS分布式文件系统,数据分布在许多计算机中并以块的形式存储。HDFS将数据存储在多个数据块上。如果其中一个数据点崩溃了–不会导致损失任何数据
HDFS对数据进行拷贝并将其存储在多个系统中。复制方法

第二步:数据处理。
之前放在单个处理器上处理,低效且费时。
MapReduce将数据分成多个部分,并在不同的数据节点上分别处理每个部分。然后将各个结果汇总并最终输出
例如统计文章中每个单词出现的次数:
步骤:输入 – 分割成不同的小部分 – 每一个部分进行分词统计 – 按同一个单词排序 – 汇总计数
在这里插入图片描述
这改善了负载平衡并节约了时间

第三步:
每个任务都需要硬件资源来支持完成,为了有效的管理这些资源,用到了第三个组件YARN

除了这三大组件外,HADOOP还有各种大数据工具和框架。专门用于管理、分析和处理数据,例如hive spark flume 和scoop等等

HDFS的三种模式的优势?

  • 支持并行处理
  • 更快的数据分析
  • 确保容错
  • 管理集群资源

概念理解

分布式:将不同的业务分布在不同的地方
集群:将几台服务器集中在一起,实现同一个业务
微服务:一种架构风格

岗位区别:

做菜过程:采购(数据开发)、清洗(ETL)、备菜(ETL)、摆盘(BI)、烹饪(数据分析)

hadoop主要要学的

三大组件:HDFS、MapReduce、YARN
学习对象:中台(集群+数据中台)+数据开发(算法,实时,离线),大学生

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值