大数据理论与实践I 温故知新

最新推荐文章于 2022-05-18 12:06:57 发布

-TOXNO-

最新推荐文章于 2022-05-18 12:06:57 发布

阅读量1k

点赞数 2

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/qq_36911138/article/details/103557167

版权

本文深入探讨大数据技术，涵盖Hadoop的发展阶段、大数据技术体系结构、Apache Hadoop项目组件及其功能、HDFS的架构与高可用实现、YARN资源管理、MapReduce与Spark的比较、分布式数据采集与处理工具，以及NewSQL数据库Hyperbase的特点和运作机制。通过对这些关键技术的温故知新，读者将全面了解大数据领域的核心概念与实践应用。

摘要由CSDN通过智能技术生成

ch1.大数据技术综述

1.大数据的基本特征是什么？

数据规模大,数据类型多样,生成和处理速度极快,价值巨大但密度较低。

2.Hadoop经历了几个发展阶段，各有什么特点？

前Hadoop时代；Hadoop时代；后Hadoop时代。

3.大数据技术体系大致分为几层？每层包含哪些技术？

大致分为7层，数据展现(ECharts,D3,Cboard);数据分析(数据仓库,数据集市,搜索引擎,SQL引擎,实时流处理引擎,人工智能);通用计算(批处理计算框架,高性能计算框架);资源管理(资源管理系统,容器化集群操作系统);数据存储与管理(分布式文件系统,分布式No/New SQL数据库);数据采集(结构化数据&数据导入导出,非结构化/半结构化数据&日记采集/分布式消息队列);数据源(电子商务、社交网络、智能硬件)

4.Apache Hadoop项目包含哪些子项目？简述一下它们的功能。

【分布式文件系统 HDFS】数据存储和管理。高容错;高可用;高扩展;简单一致性模型;流式数据访问;大规模数据集;构建成本低且安全可靠【批处理计算框架 MapReduce】面向批处理的分布式计算框架。分而治之,分布式计算。移动计算,而不是移动数据。高容错;高扩展;适用于海量数据的离线批处理;降低了分布式编程的门槛【高性能计算框架 Spark】计算高效;通用易用;运行模式多样【分布式资源管理系统 YARN】资源管理和作业调度。通用;高可用;高扩展【容器引擎 docker】打包应用及依赖包到一个可移植的容器中，然后发布到任意一台Linux上【容器化集群操作系统 Kubernetes】容器化集群管理引擎、生产级容器编排工具【Hadoop数据仓库】企业决策支持【SQL引擎 Hive】对海量结构化数据进行高性能SQL查询。提供类SQL查询语言;支持命令行或JDBC/ODBC;提供灵活的扩展性;提供复杂数据模型、扩展函数、脚本等【分布式NoSQL数据库 HBase】列式存储:用于半结构化、非结构化数据。高并发;高可用;高扩展;海量存储【分布式搜索引擎 ElastisSearch】基于lucene实现全文数据的快速存储、搜索和分析，处理PB级以上数据，强扩展性。

5.spark包含哪些组件？简述一下它们的功能。

core(基础计算框架-批处理,交互式分析) SQL(SQL引擎-海量结构化数据的高性能查询) streaming(实时流处理-微批) MLlib(机器学习) GraphX(图计算)

ch2.分布式文件系统HDFS

1.HDFS架构中包含哪几种角色？各自承担什么功能？

【Active NameNode】管理命名空间;管理元数据;管理block副本策略;处理客户端读写请求，为DataNode分配任务;集群中唯一【Standby NameNode】AN宕机后快速升级为active,同步元数据,即周期性下载edits,生成fsimage【NameNode元数据文件】edits编辑日志文件,fsimage元数据检查点镜像文件【DataNode】slave工作节点,存储block和数据校验和,执行客户端发送的读写操作,通过心跳机制周期向NameNode汇报运行状态和block列表信息,集群启动时向NameNode提供block列表信息【block数据块】HDFS最小存储单元,若一个block大小小于设定值不会占用整个块空间,默认3个副本【client】将文件切分为block,与NameNode交互获取文件访问计划和相关元数据,与DataNode交互读取或写入数据,管理HDFS 【系统架构：Mater/Slave】

2.为什么HDFS不合适存储大量的小文件？

元数据占用NameNode大量内存空间，磁盘寻道时间超过读取时间。

3.block副本的放置策略是什么？如何理解？

副本1放在client所在节点,副本2放在不同的机架节点,副本3放在与副本2在同一机架的不同节点,副本N随机选择,在同等条件下优先选择空闲节点。

4.HDFS离开安全模式的条件是什么？

Block上报率:DataNode上报的可用Block个数 / NameNode元数据记录的Block个数

当block上报率≥阈值时，HDFS才能离开安全模式，默认阈值为0.999，不建议手动强制退出。

【安全模式是HDFS确保block数据安全的一种保护机制。HDFS只接收读数据请求，而不接收写入、删除、修改等变更操作。AN启动时HDFS进入安全模式。触发原因：namenode重启或磁盘空间不足、block上报率低于阈值、datanode无法正常启动、日志中出现严重异常、用户操作不当。故障排查：找到datanode不能正常启动的原因，重启datanode；清理namenode磁盘。】

5.HDFS是如何实现高可用的？

AN与SN的主备切换、利用QJM实现元数据高可用（QJM机制、QJM共享存储系统）、利用ZooKeeper实现active节点选举。[JouralNode(共享存储) ZKFC Zookeeper]

6.HDFS的缺点？

不适合低延迟数据访问；不适合大量小文件存储；不支持并发写入；不支持文件随机修改。

7.元数据存储。

内存元数据(NameNode),文件元数据(edits 编辑日志文件+fsiamge 元数据镜像检查点文件)。

ch3.分布式资源管理系统YARN

1.简述YARN与MapReduce的关系。

YARN的出现为了处理MapReduce的缺陷（身兼两职:计算框架 + 资源管理系统。它的JobTracker ：既做资源管理，又做任务调度、任务太重，开销过大、存在单点故障）yarn是分布式通用资源管理系统，可以让mapreduce只做计算框架一件事，而且可以将JobTracker的资源管理、任务调度功能分离。YARN提供MapReduce的ApplicationMaster实现。

2.为什么要设计ApplicationMaster这一角色。

管理应用程序实例、向ResourceManager申请任务执行所需的资源、任务调度和监管。职责:向调度器索要适当的资源容器,运行任务,跟踪应用程序的状态和监控它们的进程,处理任务的失败原因。