spark
看星星的猿
这个作者很懒,什么都没留下…
展开
-
Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现
Apache Spark 1.3.0引入了Direct API,利用Kafka的低层次API从Kafka集群中读取数据,并且在Spark Streaming系统里面维护偏移量相关的信息,并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量,而Spark Stream转载 2015-11-04 18:02:43 · 944 阅读 · 1 评论 -
spark-1.2.0 集群环境搭建
1、下载scala2.11.4版本 下载地址为:http://www.scala-lang.org/download/2.11.4.html ,也可以使用wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.248348352.61371242.1418807768 2、解压和安装: 解压 :[spar转载 2015-12-17 16:32:35 · 512 阅读 · 0 评论 -
Spark Streaming容错的改进和零数据丢失
本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。以下为原文:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中转载 2016-01-19 15:44:06 · 619 阅读 · 0 评论