spark
文章平均质量分 82
寒郊無留影
这个作者很懒,什么都没留下…
展开
-
Spark Streaming使用Kafka保证数据零丢失
Spark Streaming使用Kafka保证数据零丢失来自:https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/spark_streaming%E4%BD%BF%E7%94%A8kafka%E4%BF%9D%E8%AF%81%E6%95%B0%E6%8D%AE%E9%9B%B6%E4%B8%A2%E5%A4%转载 2016-07-11 18:49:10 · 562 阅读 · 0 评论 -
sparkstreaming整合kafka参数设置,message偏移量写入mysql
本文转自:https://blog.csdn.net/qq_28666339/article/details/79261100自由幻想的人儿 kafka高级数据源拉取到spark,偏移量自我维护,借助scalikejdbc写入到mysql。需要导入<dependency><groupId>org.scalikejdbc</groupId><artifac...转载 2018-03-28 17:09:57 · 1519 阅读 · 0 评论 -
使用累加器配合广播变量做码表动态更新
广播变量简单介绍广播变量是允许程序员缓存一个只读的变量在每个节点上,而不是每个任务保存一份拷贝。例如,利用广播变量,我们能够将配置、较小数据量的码表分发到每个节点上,以减少通信的成本。 一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变量v中创建。广播变量是v的一个包装变量,它的值可以通过value方法访问,下面的代码说明了这个过程:scala> val b原创 2017-10-18 13:43:27 · 826 阅读 · 1 评论 -
《Spark 官方文档》Spark配置
转自:http://ifeve.com/spark-config/《Spark 官方文档》Spark配置spark-1.6.0 原文地址Spark配置Spark有以下三种方式修改配置:Spark properties (Spark属性)可以控制绝大多数应用程序参数,而且既可以通过 SparkConf 对象来设置,也可以通过Java系统属性来设转载 2017-04-19 14:37:29 · 1113 阅读 · 0 评论 -
Apache Spark 内存管理详解
转自:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.htmlSpark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程转载 2017-04-01 17:56:30 · 376 阅读 · 0 评论 -
spark与codis、kafka 整合
整理一下这几天的劳动成果,方便自己日后使用,可能存在目前没有发现的问题,若有博友发现有问题的请指明~谢谢EngineIntime_Start.scala 类,接收kafka消息package cn.com.bonc.engineimport java.io.FileNotFoundExceptionimport java.util.ArrayListimport j原创 2016-09-08 10:10:38 · 1404 阅读 · 0 评论 -
Hadoop与Spark常用配置参数总结
转自:http://dongxicheng.org/framework-on-yarn/hadoop-spark-common-parameters/背景MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。MapReduce重要配置参数1转载 2016-09-05 18:34:52 · 332 阅读 · 0 评论 -
windows下spark开发环境配置
转自 http://www.cnblogs.com/davidwang456/p/5032766.htmlwindows下spark开发环境配置--本篇随笔由同事葛同学提供。windows下spark开发环境配置特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe、hadoop.dll等文件,前提是你已经安装了eclip转载 2016-08-23 18:38:22 · 553 阅读 · 0 评论 -
Spark配置参数
转自:http://blog.javachen.com/2015/06/07/spark-configuration.html以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:转载 2016-08-21 20:16:19 · 502 阅读 · 0 评论 -
Spark源码分析(1) 从WordCount示例看Spark延迟计算原理
转自:http://blog.csdn.net/josephguan/article/details/25649239WordCount示例:val file = spark.textFile("hdfs://...")val counts = file.flatMap(line => line.split(" ")) .map(转载 2016-07-29 18:31:27 · 471 阅读 · 0 评论 -
sparkstreaming整合kafka参数设置,message偏移量写入redis
本文转自:https://blog.csdn.net/qq_28666339/article/details/79261196kafka高级数据源拉取到spark,偏移量自我维护写入到redis,建立redis连接池。需要导入<groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-...转载 2018-03-28 17:16:10 · 1307 阅读 · 0 评论