大数据复习(第一章)

lpblog

于 2021-10-18 08:51:55 发布

阅读量246

点赞数

分类专栏：大学学习笔记文章标签：大数据

本文链接：https://blog.csdn.net/lpblog/article/details/120819669

版权

大学学习同时被 2 个专栏收录

72 篇文章 2 订阅

订阅专栏

笔记

17 篇文章 0 订阅

订阅专栏

第一章

Google发明的MapReduce大规模数据分布存储和并行计算技术
Apache社区推出的开源Hadoop MapReduce 并行计算系统的普及使用、

1.1并行运算 (p1)

并行运算是指同时对多条指令、多个任务或多个数据进行处理的一种计算技术
实现这种计算方式的计算系统称为并行计算系统
以并行化的计算方法，实现计算速度和计算能力的大幅提升，以解决传统的串行计算所难以完成的计算任务

1.1.1 单处理器计算性能提升达到极限

提升性能的方式 (p3)

(1)提升计算机处理字长
(2)提高处理器芯片集成度
(3)提升处理器的主频
(4)改进处理器微架构

1.1.2 并行计算技术的分类 (p8)

在这里插入图片描述 1.Flynn分类法
分类,一是依据计算机在单个时间点能够处理的指令流的数量;二是依据计算机在单个时间点能够处理的数据流的数量。
1)单指令流单数据流
所有指令串行执行.在一个时钟周期内,处理器只能处理一个数据流。
2)单指令流多数据流
采用一个指令流同时处理多个数据流
这些指令集都能够在单个时钟周期内处理多个存储在寄存器中的数据单元
3)多指令流单数据流
采用多个指令流处理单个数据流。
4)多指令流多数据流
MIMD能够同时执行多个指令流,这些指令流分别对不同数据流进行处理。这是目前最流
行的并行计算处理方式。目前较常用的多核处理器以及 Intel最新推出的众核处理器都属于MIMD的并行计算模式。

1.1.3 并行计算的主要技术问题 (p10)

1.多处理器/多节点网络互连技术
2.存储访问体系结构
3.分布式数据与文件管理
4.并行计算的任务划分和算法设计
5.并行程序设计模型和语言
6.并行计算软件框架设计和实现
7.数据访问和通信控制
8.可靠性与容错性技术
9.并行计算性能分析与评估

1.2.1 大数据发展的意义（p15）

数据密集型科学发现将成为科学研究的第四范式
科学研究从实验科学、理论科学、计算科学到目前兴起的数据科学

1.2.2 大数据的技术特点（p16）

1）大体量
即可从数百TB到数十数百PB、甚至EB的规模。
2）多样性
即大数据包括各种格式和形态的数据。
3）时效性
即很多大数据需要在一定的时间限度下得到及时处理
4）准确性
即处理的结果要保证一定的准确性。
5）大价值
即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。
大数据类型和计算特征
1.从数据结构特征角度大数据划分为结构化与非结构化/半结构化数据
2.从数据获取处理方式大数据划分为批处理与流式计算方式
3.从数据处理类型来看大数据处理分为传统的查询分析计算和复杂数据挖掘

1.2.3 大数据研究的基本途径

1)寻找新算法降低计算复杂度。
2)寻找和采用降低数据尺度的算法。
3)分而治之的并行化处理。 除上述两种方法外,目前为止,大数据处理最为有效和最重要的方法还是采用大数据并行化算法,在一个大规模的分布式数据存储和并行计算平台上完成大数据并行化处理。

1.3.1 MapReduce (p25)

集群百科
集群是一组相互独立的、通过高速网络互联的计算机，它们构成了一个组，并以单一系统的模式加以管理。一个客户与集群相互作用时，集群像是一个独立的服务器。
1)MapReduce是一个基于集群的高性能并行计算平台
2)MapReduce是一个并行计算与运行软件框架
3)MapReduce是一个并行程序设计模式与方法

1.3.3 MapReduce的主要功能（p28）

在这里插入图片描述

1.MapReduce 功能

1.数据划分和计算任务调度
系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或 Reduce节点),同时负
责监控这些节点的执行状态,并负责Map节点执行的同步控制。
2.数据/代码互定位
为了减少数据通信,一个基本原则是本地化数据处理,即一个计算节点尽可能处理其本地磁盘上所分布存储的数据,这实现了代码向数据的迁移;当无法进行这种本地化数据处理时,再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移),但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。
3.系统优化
为了减少数据通信开销,中间结果数据进入 Reduce节点前会进行一定的合并处理;一个 Reduce节点所处理的数据可能会来自多个Map节点,为了避免 Reduce计算阶段发生数据相关性,Map节点输出的中间结果需使用一定的策略进行适当的划分处理,保证相关性数据发送到同一个 Reduce节点;此外,系统还进行一些计算性能优化处理,如对最慢的计算任务采用多备份执行、选最快完成者作为结果。
4.出错检测和恢复
以低端商用服务器构成的大规模 Mapreduce计算集群中,节点硬件(主机、磁盘、内存等)出错和软件出错是常态,因此 Mapreduce需要能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务。同时,系统还将维护数据存
储的可靠性,用多备份冗余存储机制提高数据存储的可靠性,并能及时检测和恢复出错的数据。

2.MapReduce的主要技术特征（p29）

1.向"外"横向扩展，而非向“上”纵向扩展
即 MapReduce集群的构建完全选用价格便宜、易于扩展的低端商用服务器,而非价格昂贵、不易扩展的高端服务器。对于大规模数据处理,由于有大量数据存储需要,显而易见,基于低端服务器的集群远比基于高端服务器的集群优越,这就是为什么 Mapreduce并行计算集群会基于低端服务器实现的原因。
2.失效被认为是常态
3.把处理向数据迁移
4.顺序处理数据、避免随机访问数据
大规模数据处理的特点决定了大量的数据记录难以全部存放在内存,而通常只能放在外存中进行处理。由于磁盘的顺序访问要远比随机访问快得多,因此 MapReduce主要设计为面向顺序式大规模数据的磁盘访问处理.
5.为应用开发者隐藏系统层细节
6.平滑无缝的可扩展性

1.4.2 Hadoop系统分布式存储与并行计算构架（p31）

在这里插入图片描述

1.主控节点采用心跳机制定期检测从节点，如果从节点不能有效回应心跳信息,则系统认为这个从节点失效 (p31)
2.但数据存储节点 DataNode与计算节点 Task Tracker会配对地设置在同一个物理的从节点服务器上。(p32)

lpblog

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据复习(第一章)

第一章Google发明的MapReduce大规模数据分布存储和并行计算技术Apache社区推出的开源Hadoop MapReduce 并行计算系统的普及使用、1.1并行运算 (p1)并行运算是指同时对多条指令、多个任务或多个数据进行处理的一种计算技术实现这种计算方式的计算系统称为并行计算系统以并行化的计算方法，实现计算速度和计算能力的大幅提升，以解决传统的串行计算所难以完成的计算任务1.1.1 单处理器计算性能提升达到极限提升性能的方式 (p3)(1)提升计算机处理字长(2)提高处理器芯
复制链接

扫一扫