大数据生态与spark简介

最新推荐文章于 2021-11-14 11:42:09 发布

xxgoodd

最新推荐文章于 2021-11-14 11:42:09 发布

阅读量144

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/ShiYuxing666/article/details/114302617

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大数据生态与spark简介

spark简介

大数据生态
1.什么是大数据？
大数据（BigData）是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。由IBM提出的大数据的五个特征（5V）：Volume(大量)、Velocity（高速）、Variety（多样）、Value（价值）、Veracity（真实性）。

大数据的核心是Hadoop生态系统。我们通常可能会根据特定的用特来描述软件工具，比如：Oracle是数据库、Apache Tomcat 是 Web 服务器。不过，Hadoop就有些复杂，Hadoop 是大量工具集合，这些工具可以协同工作来完成特定的任务。可以说Hadoop是一个数据管理系统，将海量的结构化和非结构化数据聚集在一起，这些数据涉及传统企业数据栈的几乎每一个层次，其定位是在数据中心占据核心地位。也可以说，Hadoop 是大规模并行执行框架，把超级计算机的能力带给大众，致力于加速企业级应用的执行。由于 Hadoop 提供如此广泛的功能，可以适用于解决大量问题，也可以说，Hadoop 是基础框架。Hadoop 提供所有这些功能，因此应该将 Hadoop 归类为一个生态系统，它包含大量的组件，从数据存储到数据集成、数据处理以及数据分析师的专用工具
2.Hadoop生态系统概述
MapReduce
主要由Google Reduce而来，它简化了大型数据的处理，是一个并行的，分布式处理的编程模型。

hadoop2.0它是基于YARN框架构建的。YARN的全称是Yet-Another-Resource-Negotiator。Yarn可以运用在S3|Spark等上
HDFS
它是由Google File System而来，全称是Hadoop Distributed File System，是Hadoop的分布式文件系统，有许多机器组成的，可以存储大型数据文件。

它是由NameNode和DataNode组成，NameNode可以配置成HA(高可用)，避免单点故障。一般用Zookeeper来处理。两个NameNode是同步的
Hive
它是Hadoop的数据仓库(DW),它可以用类似SQL的语言HSQL来操作数据，很是方便，主要用来联机分析处理OLAP（On-Line Analytical Processing）,进行数据汇总、查询、分析。
Zookeeper
它是一个针对大型分布式系统的可靠协调系统，在Hadoop|HBase|Strom等都有用到，它的目的就是封装好复杂易出错的关键服务，提供给用户一个简单|可靠|高效|稳定的系统。提供配置维护|分布式同步|名字服务等功能，Zookeeper主要是通过lead选举来维护HA或同步操作等
Pig
它提供一个引擎在Hadoop并行执行数据流。它包含了一般的数据操作如join、sort、filter等，它也是使用MR来处理数据。

spark简介

1.什么是spark

Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。可用于构建大型的、低延迟的数据分析应用程序。

2.spark运行特点

1.运行速度快
Spark有先进的DAG执行引擎，支持循环数据流和内存计算；Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的100倍，在磁盘上的运行速度是Hadoop MapReduce运行速度的10倍。
2.易用性好
Spark支持使用Java、Scala、Python语言快速编写应用，提供超过80个高级运算符，使得编写并行应用程序变得容易
3.通用性强
Spark可以与SQL、Streaming以及复杂的分析良好结合。基于Spark，有一系列高级工具，包括Spark SQL、MLlib（机器学习库）、GraphX和Spark Streaming，支持在一个应用中同时使用这些架构。
4.随处运行
Spark具有很强的适应性，能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据，能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job，来完成Spark应用程序的计算。
5.实现了数据共享
随着数据量的增加，数据移动成本越来越高，网络带宽、磁盘空间、磁盘IO都会成为瓶颈，在分散数据的情况下，会造成任务执行的成本提高，获得结果的周期变长，而数据共享模式可以让多种框架共享数据和硬件资源，大幅度减少数据分散带来的成本。
6.有效降低运维和管理成本
相比较一种计算框架需要一批维护人员，而运维人员较多又会带来的管理成本的上升；共享模式只需要少数的运维人员和管理人员即可完成多个框架的统一运维管理，便于运维优化和运维管理策略统一执行。

3.Spark的构架图

在这里插入图片描述

4.spark生态系统

在这里插入图片描述

5.Hadoop与Spark的对比

Hadoop的缺点:
（1）表达能力有限
（2）磁盘IO开销大
（3）延迟高：任务之间的衔接涉及IO开销；在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务。
比于Hadoop MapReduce，Spark主要具有如下优点:
1）Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活
（2） Spark提供了内存计算，可将中间结果放到内存中，对迭代运算效率更高
（3）Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制

6、Spark会取代Hadoop吗？

1）Hadoop是一个分布式的系统生态，不是靠着Spark这个引擎可以替代的。但不得不承认，Spark的出现对于Hadoop来说，确实极大程度上弥补了一些短板，对Hadoop造成了一些影响。而Hadoop的生态，包括资源调度和文件存储的部分，对于Spark这个纯引擎来说，也是很有帮助的。
（2）Hadoop包括两大核心:HDFS和MapReduce。Spark作为计算框架，与MapReduce是对等的。
（3）谈到“取代”，Spark应该是取代MapReduce，而不是整个Hadoop
（4）Spark和Hadoop生态系统共存共荣，Spark借助于Hadoop的HDFS、 HBase等来完成数据的存储，然后，由Spark完成数据的计算

xxgoodd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据生态与spark简介

大数据生态与spark简介spark简介1.什么是spark2.spark运行特点3.Spark的构架图4.spark生态系统5.Hadoop与Spark的对比6、Spark会取代Hadoop吗？大数据生态1.什么是大数据？大数据（BigData）是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。由IBM提出的大数据的五个特征（5V）：Volume(大量)、Velocity（高速）、Var
复制链接

扫一扫