1.Hadoop介绍

 Hadoop的介绍
大数据/四大特征:大量(voume)、多样(varity)、高速(velocity)、价值(value)。
大数据的3种数据类型:结构化数据、半结构话数据、非结构话数据。
大数据具有海量的数据规模、快速的数据流转、多样的数据数据类型以及价值密度四大特征。
Hadoop由Apache软件基金会开发,是一个开源的、可靠的、可扩展的、用于分布式局算计的分布式系统基础框架。
Hadoop是分布式文件系统(HDFS),HDPS又是拥有可扩展、高容错、高性能的分布式文件系统,负责数据的分布式存储和备份,文件些人后只能读取,不能修补。
MapReduce是分布式计算机框架,包含Map(映射)和Reduce(归约)两个阶段。
Hadoop是Apache软件基金会的Lucence项目创建人:道格-卡延,Lucence是一个应用广泛的文本搜索系统库。
Hadoop特点:高可靠性、高扩展性、高效性、高容错性、低成本、可构建在廉价机器上、Hadoop基本框架用java语言编写。
Hadoop的核心组件:HDFS、MapReduce、YARN
HDFS主要包括了:
一、HDFS结构:分布式文件系统)用于存储;
一个数据块的存储容量为(128MB)
1.NameNode:用于存储元数据以及处理客户端(Client)发出的请求。
2.Secondary  NameNode:用于备份NameNode的数据。
3.DataNata:是真正存储数据的地方,在DataNode中,文件以数据块进行存储。
二、分布式原理
1.HDFS并不是一个单机文件系统,而是分布在多个集群节点上的文件系统。
2当存储文件时,文件的数据分布在多个节点上。
3.数据从多个节点读取。
三、HDFS宕机处理
1.副本备份、2.副本存放、3.宕机处理.
HDFS的特点:高容错性、适合大规模数据处理、流式数据访问。
HDFS的缺点:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。MapReduce(分布式计算机框架):MapReduce是一个分布式运算程序的编程框架。
MapReduce简介:MapReduce是Haoop的核心计算框架,是用于大规模数据集(大于1T)并行运算的编程框架。
MapReduce工作原理:
1.数据的输入与分片阶段。
2.Map阶段。
3.Shuffle/Sort阶段。排序工作发生在Shuffle.
4.Reduce阶段。
5.数据输出阶段。
YARN(集群资源管理器)
YARN是Hadoop的资源管理器,提交应用至YARN上执行可以提高资源在集群种得利用率,提高执行速率。
YARM简介:YARM的目标是适得Hadoop数据处理能力超越MapReduce.
YARM基本结构:RM、NM、AM、Client Allication(客户端应用程序)
1.ResourceManager(简介RM):一个全局的资源管理器,负责整个系统的资源管理和分配,主要的两个组件构成,即调度器(Schedjuler)应用程序管理器(Applications Manager,ASN)。
2.NodeManager:每个节点上的资源和任务管理器。
Hadoop生态系统中常用的组件如下:
1.HBase
2.Hive
3.Pig
4.Sqoop
5.Flume
6.Oozie
7.ZooKeeper
8.Mahout
Hadoop的应用场景:
1.在线旅游
2.移动数据
3.电子商务
4.能源开采
5.图像处理
6.诈骗检测
7.IT安全
8.医疗保健
9.搜索引擎
10.社交平台

家人们都是课上的笔记,有些东西简写了,可以去搜都能搜的到,我也是这学期刚开这门课,对大家提到的帮助可能不多,望各位大神多多关照!

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值