Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。
Storm 实现的一些特征决定了它的性能和可靠性的。Storm 使用 ZeroMQ 传送消息,这就消除了中间的排队过程,使得消息能够直接在任务自身之间流动。在消息的背后,是一种用于序列化和反序列化 Storm 的原语类型的自动化且高效的机制。Storm 的一个最有趣的地方是它注重容错和管理。Storm 实现了有保障的消息处理,所以每个元组都会通过该拓扑结构进行全面处理;如果发现一个元组还未处理,它会自动从喷嘴处重放。Storm 还实现了任务级的故障检测,在一个任务发生故障时,消息会自动重新分配以快速重新开始处理。Storm 包含比 Hadoop 更智能的处理管理,流程会由监管员来进行管理,以确保资源得到充分使用。
下面介绍一下storme的安装和部署,需要完成以下步骤:
1.依赖库的安装,包括Python、jdk;
2.zookeeper集群的安装;
3.下载并解压storm的安装包;
4.修改storm的配置文件storm.yaml;
5.启动storm集群各节点的进程。
第一步:检查依赖库是否已安装(Python、jdk)
检查Python是否安装:
[root@logsrv02 /]# python
Python 2.6.6 (r266:84292, Nov 22 2013, 12:16:2