初识Hadoop

最新推荐文章于 2023-02-05 18:11:13 发布

Jmayday

最新推荐文章于 2023-02-05 18:11:13 发布

阅读量231

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/Jmayday/article/details/103503938

版权

Hadoop 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

1、Hadoop是什么?

答：它是由Apache基金会所开发的一种开方式的框架结构。

2、Hadoop包括四个基本模块
(1)、Hadoop基础功能库：支持其它Hadoop模块的通用程序包
(2)、HDFS：一个分布式文件系统，能够以高吞吐量访问应用的数据
(3)、YARN:一个作业调度和资源管理框架
(4)、MapReduce:一个基于YARN的大数据并行处理程序

除了基本的模块之外，还有一些其它的项目：
Ambari：一个基于Web的工具，用于配置、管理和监控Hadoop集群
Habase:一个可扩展的分布式数据库，支持大表的结构化数据存储
Hive:一个数据仓库的基础构架，提供数据汇总和命令行的即席查询功能
Spark:一个处理Hadoop数据的、高速的、通用的计算引擎。
ZooKeeper:一个用于分布式应用的高性能协调服务。

3、Hadoop的主要特点：
扩展能力:能可靠地存储和处理PB级的数据
成本低：可以利用廉价通用的机器组成的服务器群分发、处理数据。
高效率：通过分发数据，Hadoop可以在数据所在的节点上处理它们
可靠性：Hadoop能自动的维护数据的多分复制，失败后能自动地重新部署计算任务
4、Hadoop基本组件

(1)HDFS：Hadoop分布式文件系统

(2)YARN:一个资源调度框架

(3)MapReduce:一个分布式处理框架

5、Hadoop核心架构

答： Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

7、Hadoop能做什么？

答：hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。

6、Hadoop处理的意义

答： Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里

7、Hadoop和高效能计算、网格计算的区别

在Hadoop 出现之前，高性能计算和网格计算一直是处理大数据问题主要的使用方法和工具，它们主要采用消息传递接口（Message Passing Interface，MPI）提供的API 来处理大数据。高性能计算的思想是将计算作业分散到集群机器上，集群计算节点访问存储区域网络SAN 构成的共享文件系统获取数据，这种设计比较适合计算密集型作业。当需要访问像PB 级别的数据的时候，由于存储设备网络带宽的限制，很多集群计算节点只能空闲等待数据。而Hadoop却不存在这种问题，由于Hadoop 使用专门为分布式计算设计的文件系统HDFS，计算的时候只需要将计算代码推送到存储节点上，即可在存储节点上完成数据本地化计算，Hadoop 中的集群存储节点也是计算节点 [5] 。

在分布式编程方面，MPI 是属于比较底层的开发库，它赋予了程序员极大的控制能力，但是却要程序员自己控制程序的执行流程，容错功能，甚至底层的套接字通信、数据分析算法等底层细节都需要自己编程实现。这种要求无疑对开发分布式程序的程序员提出了较高的要求。相反，Hadoop 的MapReduce 却是一个高度抽象的并行编程模型，它将分布式并行编程抽象为两个原语操作，即map 操作和reduce 操作，开发人员只需要简单地实现相应的接口即可，完全不用考虑底层数据流、容错、程序的并行执行等细节。这种设计无疑大大降低了开发分布式并行程序的难度。

网格计算通常是指通过现有的互联网，利用大量来自不同地域、资源异构的计算机空闲的CPU 和磁盘来进行分布式存储和计算。这些参与计算的计算机具有分处不同地域、资源异构（基于不同平台，使用不同的硬件体系结构等）等特征，从而使网格计算和Hadoop 这种基于集群的计算相区别开。Hadoop 集群一般构建在通过高速网络连接的单一数据中心内，集群计算机都具有体系结构、平台一致的特点，而网格计算需要在互联网接入环境下使用，网络带宽等都没有保证