Hadoop教程 day01 初识Hadoop

分治思想

单机处理大数据的问题
需求:

  • 有一个非常大的文本文件(1TB),里面有几百亿行,只有两行内容一样,它们出现在未知的位置,需要查找到它们。
  • 硬件:单台机器,而且可用的内存很少, 只有500MB

思考:

  • 假如IO速度是500MB/S
  • 1T文件读取1次需要约30分钟
  • 循环遍历需要N次IO时间
  • 分治思想可以使时间降为2次IO

解决:

  • 分为2000个文件块
  • readLine读取每一行,通过哈希运算
  • 内存中做比较运算
    在这里插入图片描述

需求:如何对1TB文件进行排序,从小到大
思考:

  • 读到的每一行进行hashcode,根据区间分到不同的块,大于1000和小于等于2000的放在1(序号 1块)。
  • 将每一块500M内容一次读入到内存里,在内存中对该文件块进行排序,进行快排。再取第二块依次顺序这样执行。 内外部都排序
    在这里插入图片描述

需求:如何实现分钟、秒级别。
解决1:*台机器,可用的内存500MB
解决2:集群分布式


大数据部门

大数据部门业务流程分析:

  1. 产品人员提需求(统计总用户数、日活跃用户数、回流用户数等)
  2. 数据部门搭建数据平台、分析数据指标
  3. 数据可视化(报表展示、邮件发送、大屏幕展示等)

在这里插入图片描述

第一章 Hadoop概念

Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎。

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  • 主要解决,海量数据的存储和海量数据的分析计算问题。
  • 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
    在这里插入图片描述
    Apache Hadoop
    官方地址:http://hadoop.apache.org/releases.html
    下载地址:https://archive.apacheorg/dist/hadoop/common/

Hadoop的优势(4高)

  • 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
  • 高可扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
  • 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  • 高容错性:能够自动将失败的任务重新分配。

1、核心组件

Hadoop1.x和Hadoop2.x区别
在这里插入图片描述

  1. hadoop通用组件 - Hadoop Common
    包含了其他hadoop模块要用到的库文件和工具

  2. 分布式文件系统 - Hadoop Distributed File System(HDFS)
    运行于通用硬件上的分布式文件系统,高吞吐,高可靠。 负责存储

  3. 资源管理组件 - Hadoop YARN
    YARN是资源调度

  4. 分布式计算框架 - Hadoop MapReduce
    用于处理超大数据集计算的MapReduce编程模型的实现

Hadoop的三大核心组件:HDFS分布式文件系统,MapReduce分布式计算框架,Yarn集群资源管理系统

2、hadoop关联项目

  1. Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。
  2. Avrom:数据序列化系统
  3. Cassandra 是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTab1e的数据模型与Amazon Dynamo的完全分布式的架构于一身,Facebook于2008将Cassandra开源。
    (国内用的比较多的是HBase)
  4. chukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在hadoop的HDES和MapReduce框架之上的,继承了hadoop的可伸缩性和健壮性。chukwa还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。
  5. hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce 任务进行运行。
  6. Apache Pig 是一个高级过程语言,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL的查询,Pig 可以简化Hadoop的使用。
  7. Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab 开源的类Hadoop MapReduce的通用并行框架,拥有 MapReduce所具有的优点;但是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark 能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
  8. ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
  9. HBase是一个分布式的、高可靠性、高性能、面向列、可伸缩的分布式存储系统,该技术来源于Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统"。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。
    (存储在HDFS,属于nosql 非关系)

第二章 Hadoop架构

1、前提和设计目标

1、硬件错误

  • 硬件错误是常态而不是异常
  • HDFS可能由成百上千的服务器所构成,单机故障概率的存在意味着总有一部分服务器不工作的。
  • 错误检测和快速自动恢复是HDFS最核心架构目标。

2、流式数据访问

  • 运行在HDFS上的应用需要流式访问它们的数据集。
  • HDFS的设计重点是批处理,而不是交互处理。是高吞吐量而不是低延迟。(批处理:数据积攒到一定量开始计算。 流处理:流水生产线。)
  • 为了提高数据的吞吐量,在关键方面修改POSIX的语义

3、大规模数据集

  • HDFS上的一个典型文件大小一般都在G字节至T字节。 TB PB ZB
  • HDFS支持大文件存储
  • 单一HDFS实例能支撑数以千万计的文件。

4、简单的一致性模型

  • HDFS应用遵循“一次写入多次读取”的文件访问模型。
  • 简化了数据一致性问题,并且使吞吐量的数据访问成为可能。
  • Map/Reduce应用或者网络爬虫应用都非常适合这个模型。

5、移动计算比移动数据更划算

  • 降低网络阻塞的影响,提高系统数据的吞吐量。
  • 将计算程序发送到数据所在的主机,让GB级别TB级别的数据移动更便捷

6、异构软硬件平台间的可移植性

  • HDFS在设计的时候就考虑到平台的可移植性
  • 这种特性方便了HDFS作为大规模数据应用平台的推广

2、HDFS架构

问题:
100台服务器,存储空间单个100GB,总共10T
5T文件如何存储?
128MB一块,128MB * 8 = 1GB,128 * 8 * 1024=1TB

128B(字节),KB,MB
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
1)NameNode(nm):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和

3)Secondary NameNode(2nm):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

3、YARN架构

Container主要是为App Mst服务,因为Job想运行,需要资源
在这里插入图片描述

4、MapReduce架构

MapReduce将计算过程分为两个阶段:Map和Reduce,
1)Map阶段并行处理输入数据,分发
2)Reduce阶段对Map结果进行汇总
在这里插入图片描述

大数据技术生态体系

Spark Streaming 实时批处理计算
Storm 实时计算
在这里插入图片描述
图中涉及的技术名词解释如下:
1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2)Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:
(1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
(2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。
(3)支持通过Kafka服务器和消费机集群来分区消息。
(4)支持Hadoop并行数据加载。
4)Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
5)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
6)Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
10)R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
11)Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库。
12)ZooKeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值