目录
- 1、Spark 结合 Flume 的使用场景
- 2、Spark 结合 Kafka 的使用场景
1、Spark 结合 Flume 的使用场景
若实时数据流产出的频率不固定,比如有时候是一秒十万条,有时候是一小时一万条,可以选择将数据用nginx日志来表示,每隔一段时间将日志文件,放到flume监控的目录中,然后呢,spark streaming来计算。
2、Spark 结合 Kafka 的使用场景
若实时数据流产出特别频繁,比如说一秒钟10w条,那就必须是kafka,分布式的消息缓存中间件,可以承受超高并发。