1.Hadoop介绍
Hadoop狭义上是指一款用java语言实现,开源允许用户简单的编程模式
实现跨机器集群
对海量数据进行分布式计算处理
。
Hadoop核心组件:
Hadoop HDFS
(分布式文件存储系统
):解决海量数据存储;Hadoop YARN
(集群资源管理
和任务调度
):解决资源任务调度;Hadoop MapReduce
(分布式计算
框架):解决海量数据计算;
Hadoop广义上是指围绕Hadoop打造的大数据生态圈
Hadoop现状
HDFS
作为分布式文件存储系统,处于生态圈底层和核心地位
;YARN
作为分布式通过的集群资源管理系统和任务调度平台,支持各种计算引擎允许,
保证了Hadoop地位;MapReduance
作为第一代分布式计算引擎,由于自身设计模式所产生的弊端,导致企业一线几乎不直接使用MapReduce进行编程处理
。
Hadoop特性优点
扩容能力强
:Hadoop在可用的计算机集群间分配数据并完成计算任务;成本低
:可以通过部署廉价的机器组成集群处理大数据。效率高
:通过并发数据,Hadoop可以在节点之间动态并行的运动数据,使得速度非常快。可靠性
:可以自动维护数据的多份赋值,并且在任务失败后能自动地重新部署计算任务。
分布式与集群两个不同概念:
分布式:多台机器
,每台机器上部署不同组件
集群式:多台机器
,每台机器上部署相同组件
参考
https://www.bilibili.com/video/BV1CU4y1N7Sh?p=19&spm_id_from=pageDriver