SparkStreaming和Storm的区别

SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka(Kafka和SparkStreaming是黄金组合), Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现

同样作为流式处理框架,SparkStreaming和Storm的区别在于:

  • Storm是实时处理数据,SparkStreaming是微批处理数据,因此SparkStreaming的吞吐量要比Storm高
  • Storm适合处理实时数据,SparkStreaming适合处理流数据。SparkStreaming的高吞吐量,使得其计算逻辑必然可以处理复杂业务
  • Storm的事务更加完善(ack保障机制,数据有100条就直接处理100条),SparkStreaming可以管理事务(100条数据处理完50条,可以手动管理处理剩下的50条)
  • Storm和SparkStreaming都支持动态资源调度,不过最好别开启(资源一旦释放掉,有可能就要不回来了)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值