Hadoop简介
1.什么是Hadoop?
Hadoop项目为可靠的,可扩展的分布式计算开发开源软件。
Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供高可用性服务,每个计算机都可能出现故障。
注意:高可用行是第三方软件提供的特性,不算它本身的特性。
2.Hadoop的内容包括4个模块!!记住为4个!
①Hadoop Common:支持其他Hadoop模块的常用工具,是其他模块的基础。
②Hadoop分布式文件系统(HDFS™):Hadoop Distributed File System(HDFS)一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
③Hadoop YARN:作业调度和集群资源管理的框架。
④Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。(常用来做离线的任务)
3. 几种常用的其他Hadoop相关项目
Avro:数据序列化系统。(序列化:把对象转换为字节序列的过程)
HBase:可扩展的分布式数据库,支持大型表格的结构化数据存储。(无Sql语句)
Hive:提供数据汇总和即席查询的数据仓库基础架构。(都是Sql语句,会运行Mapreduce)
Spark:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算。
Zookeeper:分布式应用程序的高性能协调服务。