大数据理论与实践I 温故知新

本文深入探讨大数据技术,涵盖Hadoop的发展阶段、大数据技术体系结构、Apache Hadoop项目组件及其功能、HDFS的架构与高可用实现、YARN资源管理、MapReduce与Spark的比较、分布式数据采集与处理工具,以及NewSQL数据库Hyperbase的特点和运作机制。通过对这些关键技术的温故知新,读者将全面了解大数据领域的核心概念与实践应用。
摘要由CSDN通过智能技术生成

ch1.大数据技术综述

1.大数据的基本特征是什么?

数据规模大,数据类型多样,生成和处理速度极快,价值巨大但密度较低。

2.Hadoop经历了几个发展阶段,各有什么特点?

前Hadoop时代;Hadoop时代;后Hadoop时代。

3.大数据技术体系大致分为几层?每层包含哪些技术?

大致分为7层,数据展现(ECharts,D3,Cboard);数据分析(数据仓库,数据集市,搜索引擎,SQL引擎,实时流处理引擎,人工智能);通用计算(批处理计算框架,高性能计算框架);资源管理(资源管理系统,容器化集群操作系统);数据存储与管理(分布式文件系统,分布式No/New SQL数据库);数据采集(结构化数据&数据导入导出,非结构化/半结构化数据&日记采集/分布式消息队列);数据源(电子商务、社交网络、智能硬件)

4.Apache Hadoop项目包含哪些子项目?简述一下它们的功能。

分布式文件系统 HDFS】数据存储和管理。高容错;高可用;高扩展;简单一致性模型;流式数据访问;大规模数据集;构建成本低且安全可靠【批处理计算框架 MapReduce】面向批处理的分布式计算框架。分而治之,分布式计算。移动计算,而不是移动数据。高容错;高扩展;适用于海量数据的离线批处理;降低了分布式编程的门槛【高性能计算框架 Spark】计算高效;通用易用;运行模式多样【分布式资源管理系统 YARN】资源管理和作业调度。通用;高可用;高扩展【容器引擎 docker】打包应用及依赖包到一个可移植的容器中,然后发布到任意一台Linux上【容器化集群操作系统 Kubernetes】容器化集群管理引擎、生产级容器编排工具【Hadoop数据仓库】企业决策支持【SQL引擎 Hive】对海量结构化数据进行高性能SQL查询。提供类SQL查询语言;支持命令行或JDBC/ODBC;提供灵活的扩展性;提供复杂数据模型、扩展函数、脚本等【分布式NoSQL数据库 HBase】列式存储:用于半结构化、非结构化数据。高并发;高可用;高扩展;海量存储【分布式搜索引擎 ElastisSearch】基于lucene实现全文数据的快速存储、搜索和分析,处理PB级以上数据,强扩展性。

5.spark包含哪些组件?简述一下它们的功能。

core(基础计算框架-批处理,交互式分析) SQL(SQL引擎-海量结构化数据的高性能查询) streaming(实时流处理-微批) MLlib(机器学习) GraphX(图计算)

ch2.分布式文件系统HDFS

1.HDFS架构中包含哪几种角色?各自承担什么功能?

【Active NameNode】管理命名空间;管理元数据;管理block副本策略;处理客户端读写请求,为DataNode分配任务;集群中唯一【Standby NameNode】AN宕机后快速升级为active,同步元数据,即周期性下载edits,生成fsimage【NameNode元数据文件】edits编辑日志文件,fsimage元数据检查点镜像文件【DataNode】slave工作节点,存储block和数据校验和,执行客户端发送的读写操作,通过心跳机制周期向NameNode汇报运行状态和block列表信息,集群启动时向NameNode提供block列表信息【block数据块】HDFS最小存储单元,若一个block大小小于设定值不会占用整个块空间,默认3个副本【client】将文件切分为block,与NameNode交互获取文件访问计划和相关元数据,与DataNode交互读取或写入数据,管理HDFS   【系统架构:Mater/Slave】

2.为什么HDFS不合适存储大量的小文件?

元数据占用NameNode大量内存空间,磁盘寻道时间超过读取时间。

3.block副本的放置策略是什么?如何理解?

副本1放在client所在节点,副本2放在不同的机架节点,副本3放在与副本2在同一机架的不同节点,副本N随机选择,在同等条件下优先选择空闲节点。

4.HDFS离开安全模式的条件是什么?

Block上报率:DataNode上报的可用Block个数 / NameNode元数据记录的Block个数

当block上报率≥阈值时,HDFS才能离开安全模式,默认阈值为0.999,不建议手动强制退出。

【安全模式是HDFS确保block数据安全的一种保护机制。HDFS只接收读数据请求,而不接收写入、删除、修改等变更操作。AN启动时HDFS进入安全模式。触发原因:namenode重启或磁盘空间不足、block上报率低于阈值、datanode无法正常启动、日志中出现严重异常、用户操作不当。故障排查:找到datanode不能正常启动的原因,重启datanode;清理namenode磁盘。】

5.HDFS是如何实现高可用的?

AN与SN的主备切换、利用QJM实现元数据高可用(QJM机制、QJM共享存储系统)、利用ZooKeeper实现active节点选举。[JouralNode(共享存储) ZKFC Zookeeper]

6.HDFS的缺点?

不适合低延迟数据访问;不适合大量小文件存储;不支持并发写入;不支持文件随机修改。

7.元数据存储。

内存元数据(NameNode),文件元数据(edits 编辑日志文件+fsiamge 元数据镜像检查点文件)。

ch3.分布式资源管理系统YARN

1.简述YARN与MapReduce的关系。

YARN的出现为了处理MapReduce的缺陷(身兼两职:计算框架 + 资源管理系统。它的JobTracker :既做资源管理,又做任务调度 、任务太重,开销过大 、存在单点故障)yarn是分布式通用资源管理系统,可以让mapreduce只做计算框架一件事,而且可以将JobTracker的资源管理、任务调度功能分离。YARN提供MapReduce的ApplicationMaster实现。

2.为什么要设计ApplicationMaster这一角色。

管理应用程序实例、向ResourceManager申请任务执行所需的资源、任务调度和监管。职责:向调度器索要适当的资源容器,运行任务,跟踪应用程序的状态和监控它们的进程,处理任务的失败原因。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值