![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
流全栈处理
文章平均质量分 71
holomain
足够明亮,做够善良
展开
-
Structed Streaming 小案例
1 首先是官网: http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht 注意官方文档中的着重表示的地方例如(黑体加重,斜体等) 我们都知道spark streaming 是基于spark core API 那Structed Streaming基于的是什么? 没错就是Spark...原创 2018-06-18 14:46:37 · 2597 阅读 · 0 评论 -
windows 本地测试spark streaming + kafka direct api
windows 本地测试spark streaming + kafka direct api 卡在如下信息出: “Kafka scala consumer marked as dead for group” 1.环境: kafka server为集群,连接时使用的是hostname:9092方法去连接,程序也不报错, 就是卡在上面的信息出,没有输出。 2.之前已经在集群上使用shell...原创 2018-07-20 11:38:49 · 458 阅读 · 0 评论 -
大数据实时流处理零数据丢失
大数据实时流处理零数据丢失 1.整体流程: a)kafka:作为流处理程序的生产者 b)sparkStreaming:作为消费者,设置合理batch c)DB:输出到redis/ES 2.存在问题: 雪崩效应: kill 出现,导致的数据丢失 sparkStreaming程序挂掉了,到知道的数据丢失 解决: 1.使用checkpoint。维护太麻烦,流程...原创 2018-08-10 17:49:05 · 1657 阅读 · 0 评论 -
Alluxio 部分阅读
现有的streaming architecture 的bottleneck是: 1.hdfs 存储系统位于远端的服务器:文件的输入输出会引起大量的网络延迟,数据的更改编程流处理的一个bottleneck 。 2.HDFS使用普通的磁盘,因此IO操作,尤其是读操作有很高的延迟,spark streaming的executor需要重复的跨集群读操作从HDFS,进一步降低了整体的性能。 3.当spar...翻译 2018-09-03 17:20:46 · 379 阅读 · 0 评论 -
kafka 顺序消费, spark streaming exactly-once以及零丢失的一些总结
Kafka:定义: 消息中间件 –>分布式流式平台 生产者 source Broker channel 消费者 sink 正常部署的是: Broker进程(一个机器一个(分布式),一个机器多个(伪分布式)) 使用场景: Flume-->Kafka-->Spark streaming 实时流式Kafka Streaming 特点: 发布/订阅 实时...原创 2018-09-16 00:15:07 · 1655 阅读 · 0 评论 -
spark on Alluxio 的使用
http://www.alluxio.org/docs/1.8/en/Running-Spark-on-Alluxio.html Alluxio 解决的问题: 现有的streaming architecture 的bottleneck是: 1.hdfs 存储系统位于远端的服务器:文件的输入输出会引起大量的网络延迟,数据的更改编程流处理的一个bottleneck 。 2.HDFS使用普通的磁盘,因...原创 2018-10-12 17:55:44 · 1255 阅读 · 0 评论