Storm是实时流式数据处理框架,支持多种编程语言
应用案例:
realtime analytics
online machine learning
continuous computation
distributed RPC
ETL
性能:a million tuples per second per node
可扩展、高容错
结合消息队列和数据库一起使用,消息队列作为数据源,数据库作为结果的输出。
基本概念:
Topologies:拓扑,也称为一个任务,即数据的输入-->处理-->输出的过程
Spouts:拓扑的消息源
Bolts:拓扑的处理逻辑单元
Tuple:消息元组,Spouts的数据输出最小单元
Stream:流
Stream grouping:流的分组策略
Tasks:任务处理单元
Executor:工作线程
Workers:工作进程
Configuration:topology的配置