大数据时代-你需要了解的大数据处理神器-Hadoop

最新推荐文章于 2024-10-29 09:57:15 发布

beaut_y_u

最新推荐文章于 2024-10-29 09:57:15 发布

阅读量1.7k

点赞数 2

分类专栏：大数据文章标签：分布式大数据 hadoop

本文链接：https://blog.csdn.net/qq_41692766/article/details/107791963

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

hadoop

1.1 hadoop 介绍

官网介绍：

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

百科介绍

Apache Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身不用于依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，因此可以在计算机集群的顶部提供高可用性服务，每台计算机都容易出现故障。

作用

Hadoop主要用来存储以及处理 大量并且复杂的数据

1.2 hadoop 组件介绍

Hadoop的核心生态架构

底层：存储层，文件系统HDFS，NoSQL Hbase
中间层：资源及数据管理层，YARN以及Sentry等
上层：MapReduce、Impala、Spark等计算引擎
顶层：基于MapReduce、Spark等计算引擎的高级封装及工具，如Hive、Pig、Mahout

核心组件

mapreduce：分布式批计算引擎，就是把一部分数据，拆分到多个节点，进行计算。说通俗了，就是把一个java里的数组拆分若干份，扔给多个机器上的mr进程，让它们处理，至于怎么处理逻辑都是自己写。
hdfs：一个分布式文件系统，这个不多说了，不了解dfs的话查查就明白。
yarn：资源管理调度框架，如果你写了一堆定时执行的批处理程序，想让它在一堆服务器中的任意一台运行，但是这些服务器的资源（内存、cpu）是有限的，你希望这些程序能够自动的选择一台资源相对不错的机器运行，且当服务器资源不够时，剩下尚未运行的程序需要进行等待，说白了就是能把这些服务器资源管理起来，你每次启动程序不用手动去每台机器上找，同时能监控服务器的资源使用，让它们别超标影响其他程序，还能跟着每个程序执行状况，那么yarn就是做件事情的。