大数据分布式计算出现原因:
数据规模太大,单靠一台计算机无法处理
分布式计算需要考虑的问题:
分布式计算必然会涉及到不同计算机分工,计算负荷问题,计算机之间的数据迁移及计算机发生故障时数据如何处理的问题。下面
就以上几个大致问题罗列几个需要考虑的情况。
大量数据过来后,要考虑以下问题:
1. 由于是大量数据,则需要对数据进行分批操作,再分配给不同的计算机进行处理,在对数据进行分批操作时,需要考虑用哪种排序算法对数据进行排序分类操作。
2.对于对数据进行排序分类及给不同计算机分配数据处理任务,是拿出一台专门的计算机进行任务调度还是在做数据处理的计算机上直接进行任务调度。
3.如果进行任务调度的计算机或者进行数据处理的计算机挂了怎么办?挂了的计算机执行的任务如何分配?该任务会不会被重复或遗漏执行
4.在进行任务分配时,会不会出现某台计算机很闲,某台很忙的情况。如果某台计算机的任务已处理完,是否要等其他台机器的任务处理完再给他分配任务?如果增加一台计算机,是否可以缩短任务执行的时间
5. 每台机器执行任务时是主动式执行还是被动式执行?
6.如何保证数据处理的结果是实时的?
...........
根据侧重点不同,分布式计算有以下几类框架:
侧重于分布式(分布式计算):hadoop,
侧重于实时性(流计算):flink等
侧重于避免重复型计算(增量计算框架):galaxy
侧重于交互:hive