认识Hadoop

Hadoop

认识Hadoop

Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。

Hadoop 是一个基础框架,允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理。它的设计规模从单一服务器到数千台机器,每个服务器都能提供本地计算和存储功能,框架本身提供的是计算机集群高可用的服务,不依靠硬件来提供高可用性。

用户可以在不了解分布式底层细节的情况下,轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让 hadoop 成为最流行的大数据分析系统。

Hadoop是Apache基金会的顶级项目,由多个次级项目组成。

Hadoop组成

HDFS

HDFS 是 Hadoop 的一个分布式文件系统,是 Hadoop 应用程序使用的主要分布式存储。

HDFS有两类节点:NameNode(名称节点);DataNode(数据节点)。这两类结点分别承担 Master 和 Worker 具体任务的执行。

HDFS 是一个主/从体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行 CRUD(Create、Read、Update 和 Delete)操作。但由于分布式存储的性质,HDFS 集群拥有一个 NameNode 和一些 DataNode。NameNode 管理文件系统的元数据,DataNode 存储实际的数据。

HDFS 主要针对“一次写入,多次读取”的应用场景,不适合实时交互性很强的应用场景,也不适合存储大量小文件。小文件会占用大量的NameNode信息来存在DataNode的信息,也会加长对DataNode索引所需的时间,所以一定要事先规划好。

MapReduce

顾名思义,MapReduce就是利用Map和Reduce两个函数来完成工作。

  1. Map
    对集合中的每个元素进行同一个操作。如果想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于映射(Map)。
  2. Reduce
    遍历集合中的元素来返回一个综合的结果。如果想找出表单里所有数字的总和,那么输出表单里一列数字的总和的任务就属于化简(Reduce)。

计算模型

总结

以后就是个人对Hadoop的了解,后续会随着对Hadoop的了解而更新

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值