Hadoop、Hive和Spark的具体介绍,它们之间主要有什么关系?

    hadoop:Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机集群的大型数据集的分布式处理。

  它被设计成从单个服务器扩展到数千台机器,每个机器提供本地计算和存储。而不是依靠硬件上提供高可用性,本身的设计目的是检测和处理应用程序层的故障。

  hadoop理解:用多台廉价的计算机组成集群,替代传统的服务器。每台机器都可以存储和计算。

  1.数据文件被分成多个块存储在各个计算机上,提供冗余备份机制。这样,单台计算机坏掉数据也不会丢失。这就是HDFS分布式文件存储系统。

  2.hadoop集群上的每台计算机都有自己的cpu,充分利用这些cpu进行并行计算。可以理解为一个计算任务被拆分为多个部分,分配到集群下的计算机上,多台机器并行计算然后再将结果汇总。这就是mapreduce。

  hive:基于hadoop的数据仓库工作,可以将结构性的数据映射成一张数据库表,提供HiveQL语句(类sql),并将其转化为mapreduce任务运行在hadoop上。

  hive理解:本质就是MapReduce,简化了MapReduce任务的开发。让使用sql语言的人可以很快的进行大数据的开发

  spark:Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,

  同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群

  spark理解:思想与MapReduce相同,但是是基于内存计算,速度更快。

  Hadoop、Hive、Spark之间的关系?

  hadoop:一个大脑加一个口袋构成一个单体,大脑负责计算数据,口袋负责存储数据。多个单体构成集群。

  hive:使用HiveQL语句,将其转化成MapReduce任务,让多个大脑同时计算存储在多个口袋里的数据。

  spark:多个更聪明的大脑组成的集群,计算存储在hadoop集群上的数据。计算速度很快,可以进行实时的应用。


大数据现在处于什么阶段,入行大数据,需要学习哪些基础知识?
http://www.duozhishidai.com/article-1169-1.html
大数据入门之Hadoop基础学习
http://www.duozhishidai.com/article-12891-1.html
Spark 和 Hadoop之间,主要有什么联系
http://www.duozhishidai.com/article-9781-1.html

 

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页