![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
陈尘辰
大数据从业者,持续学习输出中....不止是技术!
展开
-
Spark踩坑记——Spark Streaming+Kafka
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spa...转载 2018-04-13 11:31:56 · 320 阅读 · 0 评论 -
Spark & Kafka - Achieving zero data-loss (未翻译版)
转自github上的文章,英文不太好,日后有空再翻译Kafka and Spark Streaming are two technologies that fit well together. Both are distributed systems so as to handle heavy loads of data. Making sure you don’t lose data does ...转载 2018-04-13 11:43:59 · 188 阅读 · 0 评论 -
Spark Streaming 中使用kafka低级api+zookeeper 保存 offset 并重用 以及 相关代码整合
在 Spark Streaming 中消费 Kafka 数据的时候,有两种方式分别是 1)基于 Receiver-based 的 createStream 方法和 2)Direct Approach (No Receivers) 方式的 createDirectStream 方法,详细的可以参考 Spark Streaming + Kafka Integration Guide,但是第二种...转载 2018-04-13 11:49:22 · 492 阅读 · 0 评论