Spark
离线之间
这个作者很懒,什么都没留下…
展开
-
Spark技术相关文章汇总
使用Spark和MemSQL Spark连接器运行实时应用Apache Zeppelin使用入门指南:编程使用Ganglia监控SparkSpark+Kafka的Direct方式将偏移量发送到Zookeeper实现过往记忆原创 2016-09-01 16:41:28 · 243 阅读 · 0 评论 -
Spark Streaming实时读取Kafka
使用Spark Streaming读取Kafka时,要引用如下包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.6.1</version></dependency> <dependency> <grou原创 2016-09-01 14:18:14 · 277 阅读 · 0 评论 -
Spark Executor 长时间空闲
经常会碰到一种现象:只有少数 Executor 在运行,别的 Executor 长时间空闲。这种现象比较常见的原因是数据的分区比较少,可以使用 repartition 来提高并行度。另外一种原因和数据的本地性有关,请看下面的例子:用户的任务申请了 100 个 executors,每个 executor 的 cores 为 6,那么最多会有 600 个任务同时在运行,刚开始是 600 个任务在运行,接转载 2016-08-22 22:52:38 · 458 阅读 · 0 评论 -
如何查看Spark的历史运行情况
平时当Spark程序运行时,通过在浏览器当中输入 spark-master-ip:4040 查看Spark运行的情况和信息,但是当程序运行结束时,4040页面就打不开了。原来可以通过设置配置文件,查看历史运行情况。1. 打开Spark conf目录下的spark-defaults.conf文件2. 在其中配置如下信息:spark.eventLog.enabled true原创 2016-08-07 20:24:03 · 1491 阅读 · 0 评论 -
Spark——数据库(Hbase+Mysql)
来自:http://www.cnblogs.com/xlturing/p/spark.html前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文转载 2016-08-27 23:49:34 · 304 阅读 · 0 评论 -
让Spark如虎添翼的Zeppelin – 分享篇
来自:http://www.flyml.net/2016/08/26/reinforce-spark-with-zeppelin-share-your-work/原创声明:本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验,请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间:2016年08月24日0. 前提转载 2016-08-27 21:51:16 · 789 阅读 · 0 评论 -
如何在Spark中记录日志
如何在Spark中记录我们自己想要输出的日志我们可以这样:object app { def main(args: Array[String]) { val log = LogManager.getRootLogger log.setLevel(Level.WARN) val conf = new SparkConf().setAppName("demo-app") val s原创 2016-08-05 22:00:47 · 334 阅读 · 0 评论 -
Spark源码阅读(一)RDD
1. persist() & cache() def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) def cache(): this.type = persist()可以看出persist的存储级别是MEMORY_NOLY cache 与 persist 完全一样2. countByKey & countByValue d原创 2016-08-01 23:15:33 · 323 阅读 · 0 评论