Hadoop的基本介绍

本文介绍了Hadoop架构,包括其核心组件HDFS和YARN,以及MapReduce等工具。Hadoop以其高可靠性、扩展性、高效性和低成本等特点,广泛应用于大数据存储、日志处理、ETL、机器学习和搜索引擎等领域。它不适合实时在线事务处理,而是专为大规模数据分析设计。
摘要由CSDN通过智能技术生成

一、Hadoop的介绍:

hadoop是一个架构(想法)用来处理和存储海量数据的;

如图:

HDFS:分布式存储系统。

YARN: 任务调度和集群资源管理的框架。

MapReduce:一种基于Hadoop YARN的大型数据集并行计算处理系统。

其它模块,还有一些hadoop生态圈中的辅助工具,主要用于特定目的或者功能等…,如:

      Hibase:是基于一个分布式的、面向列的开源数据库。

      Hive:是基于Hadoop的一个数据仓库工具。

      Pig:运行在Hadoop上,是对于大型数据集进行分析和评估的平台。

      Spark:Hadoop数据快速通用的计算引擎。

      ZooKeeper:一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。

等等..............

每一个模块有自己独立的功能,而模块之间又有相互的关联。通常我们所说的hadoop指的是hadoop的一个生态圈。

hadoop的优势:

  • 高可靠性。Hadoop设计时考虑了数据存储和处理的高可靠性,通过维护多个数据副本来实现,即使某个节点发生故障,数据仍然可以从其他副本中获取,确保任务继续运行。
  • 高扩展性。Hadoop能够在多台机器组成的集群上进行分布式存储和计算,可以轻松地添加或移除节点,从而实现横向扩展,适应大规模数据处理的需求。
  • 高效性。Hadoop能够在多个节点之间动态地移动数据并保证节点间的动态平衡,从而实现高效的数据处理。
  • 低成本。Hadoop可以运行在普通商用服务器上,不需要高端配置,因此大大降低了硬件成本。
  • 高容错性。Hadoop的分布式文件系统(HDFS)设计时就考虑了数据丢失和节点故障的情况,自动保存多个副本,并在任务失败时自动重新分配任务到其他节点。
  • 可构建在廉价机器上。Hadoop对机器配置的要求不高,适合在成本较低的硬件上部署。
  • 支持多种编程语言。Hadoop支持使用Java、C++等多种语言进行编程,提供了丰富的开发工具和生态系统。
  • 支持PB级数据。Hadoop能够处理非常庞大的数据量,适合处理超大数据集的应用程序。

例如:比如说我要存储很大的数据和处理数据,那么Hadoop就是存储海量数据和分析海量数据的工具。(它的两个核心组件HDFS(分布式文件存储系统)和MapReduce(任务调度和集群资源管理的框架)

前者是:用来引入存放文件元数据信息的服务器(Namenode)和实际存放数据的服务器(Datanode),对数据进行分布式储存和读取。

后者是:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。)

*注:(map和reduce是两个函数)

map()是将传入的函数依次作用到序列的每个元素,每个元素都是独自被函数“作用”一次 。

reduce()是将传人的函数作用在序列的第一个元素得到结果后,把这个结果继续与下一个元素作用(累积计算)。

二、Hadoop的作用

主要:

大数据分布式存储处理:

日志处理;

ETL(Extract-Transform-Load):将数据抽取到数据库

机器学习;

搜索引擎:Hadoop + lucene(lucene是一个全文搜索引擎包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎)实现

数据挖掘(目前比较流行的广告推荐,个性化广告推荐)

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

  • 21
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值