spark
余生与猫
这个作者很懒,什么都没留下…
展开
-
Spark 参数设置
这里写自定义目录标题总结Spark系统的性能调优是一个很复杂的过程,需要对Spark以及Hadoop有足够的知识储备。从业务应用平台(Spark)、存储 (HDFS)、操作系统、硬件等多个层面都会对性能产生很大的影响。借助于多种性能监控工具,我们可以很好地了解系统的性能表现,并根据上面介绍的经验进 行调整。#spark.driver.extraJavaOptions -XX:PermSize=...转载 2019-05-20 19:34:35 · 4128 阅读 · 0 评论 -
Spark Properties
Spark properties能够控制大部分的程序设置,并且可以为每个程序分开配置。properties能够通过SparkConf直接设置然后传入到SparkContext。SparkConf允许用户配置一些公用属性(例如:master URL和程序名称),也允许使用set()方法,传入key-value键值对来设置。例如,我们初始化一个拥有两个线程的应用程序如下:注意:我们设置local[2...转载 2019-05-20 19:47:04 · 1188 阅读 · 0 评论 -
spark-submit配置说明
《Spark 官方文档》Spark配置spark-1.6.0 原文地址Spark配置Spark有以下三种方式修改配置:Spark properties (Spark属性)可以控制绝大多数应用程序参数,而且既可以通过 SparkConf 对象来设置,也可以通过Java系统属性来设置。Environment variables (环境变量)可以指定一些各个机器相关的设置,如IP地址,其设置方...转载 2019-05-20 20:05:12 · 3952 阅读 · 0 评论 -
在Spark上通过自定义RDD访问HBase
这里介绍一个在Spark上使用自定义RDD获取HBase数据的方案。这个方案的基础是我们的HBase表的行键设计。行键设计大概是这样子的:标签ID+时间戳+随机码。平时的需求主要是导出指定标签在某个时间范围内的全部记录。根据需求和行键设计确定下实现的大方向:使用行键中的时间戳进行partition并界定startRow和stopRow来缩小查询范围,使用HBase API创建RDD获取数据,在获...转载 2019-05-21 17:34:57 · 181 阅读 · 0 评论