Hadoop介绍

当谈论Hadoop时,我们需要考虑它的核心组件以及其在大数据处理中的作用。

Hadoop分布式文件系统(HDFS):

HDFS是Hadoop的存储组件,旨在处理大规模数据集的存储需求。它具有高容错性,可扩展性和可靠性。
HDFS将大文件分割成数据块(通常大小为128MB或更大),并将这些数据块复制到集群中的不同节点上,以确保数据的冗余备份和可靠性。默认情况下,每个数据块有三个副本存储在不同的节点上。
HDFS采用主从架构,包括一个NameNode和多个DataNode。NameNode负责管理文件系统命名空间,记录文件的元数据信息,而DataNode则存储实际的数据块。
HDFS通过使用副本机制和数据本地性原则来提高数据访问效率,使得MapReduce等计算框架可以在数据所在的节点上执行任务,减少数据传输开销。

Hadoop YARN(Yet Another Resource Negotiator):

YARN是Hadoop的资源管理和作业调度框架,允许多个数据处理框架在同一集群上共享资源,以提高资源利用率。
YARN包括ResourceManager和NodeManager两个核心组件。ResourceManager负责整个集群的资源分配和作业调度,而NodeManager则负责在各个节点上执行容器,并监控资源使用情况。
YARN支持多种应用程序模型,包括传统的基于批处理的MapReduce模型,以及新兴的交互式查询(例如Apache Tez)、流处理(例如Apache Flink)和机器学习(例如Apache Spark)等。

其他Hadoop生态系统组件:

MapReduce:最初是Hadoop的主要计算框架,用于处理大规模数据集的分布式计算。它将任务分解成可并行执行的Map和Reduce阶段,并具有高度容错性。
Hive:基于Hadoop的数据仓库工具,提供类似SQL的查询语言(HiveQL)来分析存储在HDFS中的数据,适用于数据分析和报表生成。
Pig:另一个基于Hadoop的数据分析工具,提供一种类似于脚本语言的语法来编写数据流处理程序,适用于ETL(Extract-Transform-Load)任务和数据流分析。
Spark:近年来迅速崛起的大数据处理框架,提供了比MapReduce更快的数据处理速度和更丰富的功能集,包括内存计算、流处理、机器学习等。
HBase:一个分布式、可伸缩、面向列的NoSQL数据库,用于实时读写大规模数据集。
ZooKeeper:用于分布式应用程序协调和服务发现的开源分布式协调服务。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
⼤数据技术之Hadoop介绍 1.⼤数据概述 ⼤数据概述 ⼤数据是指⽆法利⽤传统计算技术进⾏处理的⼤规模数据集合。⼤数据概念不再只是数据,⼤数据已经成为⼀个全⾯的主题概念,包含各类 ⼯具、技术以及框架。 ⼤数据包括各类信息设备以及应⽤程序所产⽣的数据。⼤数据所涵盖的⼀些数据领域如下: ⿊盒⼦数据:是指直升机、普通飞机及喷⽓式飞机等的组成部分。该数据采集了飞⾏机组⼈员的声⾳、麦克风和⽿机的录⾳以及飞机的 性能信息。 社交媒体数据:社交媒体诸如Facebook和Twitter,拥有⼈们发布的信息和观点。 证券交易数据:证券交易数据包括不同公司客户做出的"买⼊"和"卖出"决策信息。 电⽹数据:电⽹数据是指⼀个特定节点相对于基站的耗电信息。 搜索引擎数据:搜索引擎从不同数据库中抽取的⼤规模数据。 因此,⼤数据包括巨⼤规模、超⾼速度、类型可扩展的数据。⼤数据包括三种类型的数据: 结构化数据:关系型数据。 半结构化数据:XML数据。 ⾮结构化数据:Word⽂档、PDF⽂档、⽂本、媒体⽇志。 2.⼤数据技术 ⼤数据技术对于提供更精确分析是⾮常重要的。更精确地分析将会导致更具体地决策,从⽽⼤⼤提⾼⼯作效率、降低成本,减少业务风险。 要充分利⽤⼤数据,就需要⼀个基础架构,能够实时管理和处理⼤规模结构化、⾮结构化数据,并能够保障数据隐私和安全。 市场上存在有不同公司提供的技术,⽤来处理⼤数据。下⾯介绍其中的两类技术: (1)运营⼤数据 这类技术产品,如MongoDB,针对已采集和存储的数据,提供实时管理、交互式处理功能。 NoSQL⼤数据系统,充分利⽤过去⼗年流⾏的新型云计算架构,⽀持⼤规模计算,提供⾼效、廉价的计算能⼒。基于这种⽅案,⼤数据管 理的实施⼯作更容易、更便宜、更快速。 ⼀些NoSQL系统能够⽀持模式识别、实时数据处理,就不再需要数据专家和其他基础架构的⽀持。 (2)分析⼤数据 这类技术产品包括⼤规模并⾏处理(MPP)数据库系统和MapReduce,提供⽀持回溯和复杂分析的分析功能,可能会涉及到绝⼤多数数 据。 MapReduce提供⼀种新型的数据分析⽅式,与SQL数据分析能⼒互补。基于MapReduce的系统能够实现扩充,从单⼀服务器扩充到成千 上万台不同等级的终端机器。 3.⼤数据解决⽅案 3.1 传统⽅案 在该⽅案中,企业单位利⽤⼀台计算机来存储和处理⼤数据。数据被保存在⼀个关系型数据库(RDBMS)系统中,诸如Oracle数据库、 MS SQL Server或者DB2;同时,还需要编写复杂软件与这些数据库进⾏交互,处理所需数据,并向⽤户展⽰数据,以及数据分析。 该⽅案存在⼀定的限制。当所拥有数据规模不⼤,能够被标准数据库服务器处理时,该⽅案能够运⾏良好。但是,当⾯对超⼤规模数据时, 传统数据库服务器将难以处理。 3.2 Google⽅案 Google利⽤MapReduce算法来处理⼤数据。该算法把⼤数据分解为很多、很⼩的部分,并把这些部分分派给⽹络相连的计算机进⾏处理, 之后收集处理结果,汇总形成最终结果数据集。 上图展⽰了基于硬件产品的解决⽅案⽰意图,这些硬件产品可能是单⼀CPU的机器或者是功能更强⼤的服务器。 3.3 Hadoop 2005年,Doug Cutting、Mike Cafarella及其团队,基于Google⽅案,开始设计研发⼀种开放式源代码项⽬,名为HADOOPHadoop 利⽤MapReduce算法来运⾏程序,以并⾏处理⽅式在不同CPU节点上处理数据。总之,Hadoop框架能够研发基于计算机集群运⾏的应⽤ 程序;并能够针对⼤规模数据进⾏全部统计分析。 4.haadoop介绍 Hadoop是基于JAVA语⾔开发的Apache开源框架,⽀持跨计算机集群的⼤规模数据集的分布式处理。基于Hadoop框架的应⽤程序,能够 ⽀持跨计算机集群的分布式存储和计算。Hadoop框架设计旨在从单⼀服务器扩展到上千台机器,每⼀台机器能够提供本地计算和存储。 4.1 Hadoop架构 Hadoop框架包括以下四个模块: Hadoop通⽤:这些模块是其他Hadoop模块所需要的Java类库和⼯具。这些类库提供⽂件系统和操作系统级别的抽象,包含启动 Hadoop必须的Java⽂件和脚本。 Hadoop YARN:这是⼀个⽤于任务排班和集群资源管理的框架。 Hadoop分布式⽂件系统(HDFS):⼀个分布式⽂件系统,提供⾼吞吐量的应⽤程序数据访问⽅式。 Hadoop MapReduce:这是⼀个基于YARN的系统,⽤于⼤规模数据集的并⾏处理。 ⾃2012年以来,术语"Hadoop"不仅仅是指以上介绍的基础模块,还包括基于Hadoop或者与Hadoop⼀起安装的附加软件包,诸如 Apache Pig, Apache Hive, Apa

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@业精于勤荒于嬉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值