我们将大数据处理按处理时间的跨度要求分为以下几类
基于实时数据流的处理,通常的时间跨度在数百毫秒到数秒之间
基于历史数据的交互式查询,通常时间跨度在数十秒到数分钟之间
复杂的批量数据处理,通常的时间跨度在几分钟到数小时之间
1.流处理
流是一种数据传送技术,它把客户端数据变成一个稳定的流。正是由于数据传送呈现连续不停的形态,所以流引擎需要连续不断处理数据
流处理的主要应用场景:金融领域和电信领域
1.1 Stom
Storm是一个免费开源、分布式、高容错的实时计算系统。
Storm主要分为两种组件Nimbus和Supervisor。这两种组件都是快速失败的,没有状态。任务状态和心跳信息等都保存在Zookeeper上的,提交的代码资源都在本地机器的硬盘上。
1)Nimbus负责在集群里面发送代码,分配工作给机器,并且监控状态。全局只有一个。
2)Supervisor会监听分配给它那台机器的工作,