人傻就要多读书

排序:
默认
按更新时间
按访问量

Spark排错与优化

一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成spark ui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启动的...

2015-10-15 17:08:36

阅读数:50810

评论数:10

提高spark任务稳定性1 - Blacklist 机制

场景 一个 spark 应用的产生过程: 获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。 往往应用会正常运行一段时间,突然有一天运行失败,或是失败了一次才运行成功。 从开发者的角度看,...

2018-04-25 00:01:43

阅读数:158

评论数:0

PySpark Pandas UDF

配置 所有运行节点安装 pyarrow ,需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中,python 正在成为数据分析师的默认语言。一些类似 pandas,numpy,statsmodel,scikit-learn 被大量使用,逐渐成为主流的...

2018-04-13 17:58:45

阅读数:335

评论数:0

在spark dataFrame 中使用 pandas dataframe

背景 项 pandas spark 工作方式 单机,无法处理大量数据 分布式,能处理大量数据 存储方式 单机缓存 可以调用 persist/cache 分布式缓存 是否可变 是 否 index索引 自动创建 无索...

2018-04-04 11:05:27

阅读数:232

评论数:0

spark 读取 hdfs 数据分区规则

下文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParquet 控制,默认为 true。 如果设置为 true ,会使用 org....

2018-04-03 10:10:16

阅读数:389

评论数:0

spark range join 优化

背景 一张ip表,一张ip地理信息表,地理信息表每条数据包含了ip地址的起点和终点以及一些地理信息, 需要用 ip 去关联 gep_ip 中匹配相应的信息 。 例如: 数据条数为 50 M 的表 ip_record,数据格式大致如下: ip_int info ...

2018-04-03 09:47:51

阅读数:128

评论数:0

ScheduledThreadPoolExecutor 定时调度

定时器中 Timer 有单线程等缺陷,quartz依赖太重, 用 ScheduledThreadPoolExecutor 又想实现定时调度,实现一个工具类计算初次调度时间即可。 import java.util.concurrent._ val task = new Runnable { ...

2018-01-18 23:09:42

阅读数:112

评论数:0

hdfs exceeded directory item limit

报错提示: 错误原因: 一个目录下的子目录数量达到限制,默认的上限是 1048576。 每次执行hive语句时,都会在 hive.exec.scratchdir 配置的目录下生成一个临时目录,执行结束后会自动删除,如果异常中断则有可能会保留目录。 提供两种解决办法: 提高目录的限制...

2018-01-15 22:57:22

阅读数:287

评论数:0

HDFS 开启 SCR 对 Hbase 的性能提升

HDFS short circuit local readHDFS client 和 HDFS datanode 通过 TCP socket 进行通信,client 发起请求,datanode读取数据,通过RPC将数据传给 client 。如果client 和 数据在同一个节点上,那么通过 dat...

2017-11-23 23:40:28

阅读数:233

评论数:0

pypy on PySpark

什么是pypy 简单的说,pypy 基于jit静态编译,相比cpython 动态解释执行,因此执行速度上会更高效,同时减少了内存使用。 http://pypy.org对三方包的支持一直是pypy的软肋,特别是一些科学计算包,不过在最新的 pypy5.9 中终于对Pandas和NumPy提供了支...

2017-11-15 00:50:09

阅读数:286

评论数:0

hdfs du -sk 导致机器load高

hdfs 会定期(默认10分钟)使用 du -sk 命令统计BP的大小,在大硬盘机器上该操作耗时将会很长(可能超过10分钟)。这会导致 iowait 以及 load的提升。 例如: 社区为了解决这个问题,主要在两个方面进行了改造: https://issues.apache.org/jira/...

2017-11-10 08:41:41

阅读数:263

评论数:0

spark convert RDD[Map] to DataFrame

将RDD[Map[String,String]] 转化为展平 DataFrame,类似于pyspark 中 dict 结构toDF的效果。inputval mapRDD: RDD[Map[String, String]] = sc.parallelize(Seq( Map("nam...

2017-10-12 00:15:48

阅读数:338

评论数:0

spark 应用输出debug日志

问题:yarn container 大量输出debug日志 –> 磁盘写满 –> nodemanager 识别该盘为bad disk -> 停止服务 -> spark task lost 。container stdout:排错过程: 查看log4j文件,查看yarn lo...

2017-09-25 14:01:04

阅读数:692

评论数:0

phoenix for cloudera

phoenix for cloudera软件版本:spark 2.0.2 cdh 5.9 phoenix 4.9 (phoenix-spark模块使用4.11)下载CDH版本的phoenix,最新版本目前只有phoenix 4.9,不过在4.10开始才可以使用spark2.0: PHOENIX-3...

2017-07-17 01:31:54

阅读数:1567

评论数:0

网络原因造成 spark task 卡住

主机名映射出错背景:Yarn集群新加入了一批Spark机器后发现运行Spark任务时,一些task会无限卡住且driver端没有任何提示。解决:进入task卡住的节点查看container stderr日志,发现在获取其他节点block信息时,连接不上其他的机器节点,不停重试。 怀疑部分旧节...

2017-05-10 00:36:47

阅读数:1774

评论数:0

spark on yarn部署

软件版本 * spark 2.0.2 * 2.6.0-cdh5.9.0一.配置下载spark2.0.2的源码后在根目录进行编译dev/make-distribution.sh \ -Phive -Phive-thriftserver \ -Dhadoop.version=2.6.0-cdh5....

2017-02-09 18:15:23

阅读数:5620

评论数:0

Zeppelin 0.6.2 使用spark2.x 的一些错误处理

zeppelin 从 0.6.1 开始支持 spark2.x ,从0.6.2编译时引入了hadoop-common包用于权限认证,所以会存在一些包冲突导致异常的问题。 编译错误zeppelin-web编译错误Failed to execute goal com.github.eirslett:fr...

2016-12-20 20:28:18

阅读数:2025

评论数:0

将代码从 spark 1.x 移植到 spark 2.x

将代码从 spark 1.x 移植到 spark 2.x1. SparkSessionsparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体,这些Context的API都可以通过sparkSession使用。创建SparkSessi...

2016-09-09 17:46:41

阅读数:3771

评论数:0

编写Spark测试用例

使用scalaTest工具,用法参考: scalaTest的使用代码src/test/tool/LocalSparkContext.scalaimport org.apache.spark.{SparkConf, SparkContext} import org.scalatest._trait...

2016-08-31 16:09:40

阅读数:2435

评论数:0

scalaTest的使用

配置修改pom.xml,添加以下内容<!--依赖--> <dependency> <groupId>org.scalatest</groupId> <artifactId>scalatest_2.11</artifactId...

2016-08-30 12:59:31

阅读数:3525

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭