小知识点-大数据处理之初步理解

单机处理时扩展到集群处理: 单机数据处理   à  集群大数据处理

对应的变化:

1.     单机上的计算  à 集群中的计算

2.     单机上的数据存储  à  集群中的数据存储

3.     单机上的计算资源极其管理  à  集群中的计算资源极其管理

将生态圈中的各个框架对应到计算、数据存储于资源管理三大部分:

1.     集群计算:Spark计算框架、 Hadoop的MR计算框架等等….. 

2.     集群数据存储: Hadoop的HDFS、Tachyon、S3等等…..

3.     集群资源管理:YARN、MESOS、Spark的Standalone模式中的Master等等…..

集群数据存储对外提供数据读写接口,集群资源管理对外提供资源分配与释放接口,集群计算负责从集群资源管理框架中申请/释放资源、从集群数据存储框架中读写数据,具备数据和计算所需资源后,启动具体的计算过程。

比如,Spark计算框架可以使用HDFS,S3等等各种数据存储框架,因为这些框架提供了数据读写接口,Spark计算时可以通过这些接口进行数据读写。

同样也可以使用各种资源管理框架,如mesos,yarn或自带的Master组件,通过向这些框架申请/释放资源,来获取计算所需的资源。

总结:计算框架、数据存储框架、资源管理框架等,都可以看成是一个个可插拔的组件组合使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值