关于日志采集
业界比较经典的用法:
线上数据→flume→kafka→hdfs→mapreduce离线计算
或者
线上数据→flume→kafka→storm (实时)
其中后者可以应用于实时监控的短信邮件告警等。
storm也可用spark steaming(准实时,吞吐量比 storm 大)
组件
flume:日志采集系统
kafka:消息中间件
关于storm与spark steaming对比详情见
http://blog.csdn.net/qbs946/article/details/78356731