大数据计算(分布式)--简单理解

大数据分布式计算出现原因:

数据规模太大,单靠一台计算机无法处理

分布式计算需要考虑的问题:

分布式计算必然会涉及到不同计算机分工,计算负荷问题,计算机之间的数据迁移及计算机发生故障时数据如何处理的问题。下面

就以上几个大致问题罗列几个需要考虑的情况。

大量数据过来后,要考虑以下问题:
1. 由于是大量数据,则需要对数据进行分批操作,再分配给不同的计算机进行处理,在对数据进行分批操作时,需要考虑用哪种排序算法对数据进行排序分类操作。

2.对于对数据进行排序分类及给不同计算机分配数据处理任务,是拿出一台专门的计算机进行任务调度还是在做数据处理的计算机上直接进行任务调度。

3.如果进行任务调度的计算机或者进行数据处理的计算机挂了怎么办?挂了的计算机执行的任务如何分配?该任务会不会被重复或遗漏执行

4.在进行任务分配时,会不会出现某台计算机很闲,某台很忙的情况。如果某台计算机的任务已处理完,是否要等其他台机器的任务处理完再给他分配任务?如果增加一台计算机,是否可以缩短任务执行的时间

5. 每台机器执行任务时是主动式执行还是被动式执行?

6.如何保证数据处理的结果是实时的?

...........

根据侧重点不同,分布式计算有以下几类框架:

侧重于分布式(分布式计算):hadoop,

侧重于实时性(流计算):flink等

侧重于避免重复型计算(增量计算框架):galaxy

侧重于交互:hive

 


 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值