[置顶] Spark排错与优化

此文章新地址一.报错常见错误1.shuffle.FetchFailedException错误提示(1) missing output locationorg.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0(2) shuffle fetch faildorg.apac...
阅读(25055) 评论(7)

phoenix for cloudera

phoenix for cloudera软件版本:spark 2.0.2 cdh 5.9 phoenix 4.9 (phoenix-spark模块使用4.11)下载CDH版本的phoenix,最新版本目前只有phoenix 4.9,不过在4.10开始才可以使用spark2.0: PHOENIX-3333 这里将phoenix-spark模块换成了4.11的。相应修改根目录pom的配置。git c...
阅读(201) 评论(0)

spark 2.1 读取parquet外部表返回null

背景通过spark2.1读取hive外部表部分字段返回都为null原因外部表数据使用parquet文件存储,parquet文件列名是大小写敏感的,而hive metastore 的信息都是以小写的形式存储。在2.1版本以前spark-sql会对parquet的列名作小写处理2.1更新中在下面的jira中进行了删除:https://issues.apache.org/jira/browse/SPARK...
阅读(302) 评论(0)

网络原因造成 spark task 卡住

主机名映射出错背景:Yarn集群新加入了一批Spark机器后发现运行Spark任务时,一些task会无限卡住且driver端没有任何提示。解决:进入task卡住的节点查看container stderr日志,发现在获取其他节点block信息时,连接不上其他的机器节点,不停重试。 怀疑部分旧节点的/etc/hosts文件被运维更新漏了,查看/etc/hosts,发现没有加入新节点的地址,加入后问...
阅读(439) 评论(0)

spark on yarn部署

软件版本 * spark 2.0.2 * 2.6.0-cdh5.9.0一.配置下载spark2.0.2的源码后在根目录进行编译dev/make-distribution.sh \ -Phive -Phive-thriftserver \ -Dhadoop.version=2.6.0-cdh5.9.0 \ -Dyarn.version=2.6.0-cdh5.9.0 \ --tgz -Pyarn 可...
阅读(1000) 评论(0)

Zeppelin 0.6.2 使用spark2.x 的一些错误处理

zeppelin 从 0.6.1 开始支持 spark2.x ,从0.6.2编译时引入了hadoop-common包用于权限认证,所以会存在一些包冲突导致异常的问题。 编译错误zeppelin-web编译错误Failed to execute goal com.github.eirslett:frontend-maven-plugin:0.0.25:grunt (grunt test) on pro...
阅读(1144) 评论(0)

将代码从 spark 1.x 移植到 spark 2.x

将代码从 spark 1.x 移植到 spark 2.x1. SparkSessionsparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体,这些Context的API都可以通过sparkSession使用。创建SparkSessionval spark = SparkSession.builder .master("loca...
阅读(1733) 评论(0)

编写Spark测试用例

使用scalaTest工具,用法参考: scalaTest的使用代码src/test/tool/LocalSparkContext.scalaimport org.apache.spark.{SparkConf, SparkContext} import org.scalatest._trait LocalSparkContext extends BeforeAndAfterAll { sel...
阅读(1328) 评论(0)

scalaTest的使用

配置修改pom.xml,添加以下内容 org.scalatest scalatest_2.11 3.0.0 test ...
阅读(1261) 评论(0)

Spark on Mesos cluster mode

cluster modespark cluster mode指的是将driver运行在cluster而不是client中。可以使用surpervise机制,指的是driver会自动的进行失败重试。mesos-dispatcher如果要在mesos中使用cluster模式,必须先开启mesos-dispatcher服务。启动mesos-dispatchersudo -u admin /usr/inst...
阅读(471) 评论(0)

Spark不同Cluster Manager下的数据本地性表现

一. 概述Spark中的数据本地性分为两种 executor 层面的数据本地性 task 层面的数据本地性 在两种本地性中,task层面的数据本地性是由Spark本身决定的,而executor的分发则是Cluter Manager控制的,因此下文主要描述在不同Cluster Manager中的executor分发机制。 Spark Standalone Standalone提供了两种executo...
阅读(869) 评论(0)

Spark & Livy

简介livy为Spark提供了REST接口,有如下特性: * 提供交互式shell * 批量提交 * 多用户使用用一个服务(用户模拟) * 可以从任何地方使用REST的方式提交 * 无需对代码进行任何修改获取源码,进行编译(如果编译不通过需使用vpn)git clone git@github.com:cloudera/livy.git cd livy-master mvn -Dspark....
阅读(4202) 评论(0)

Spark & Alluxio

概述Alluxio(在1.0版本之前名为Tachyon)是一个以内存分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。Spark使用Alluxio的好处有如下几点: 数据可以长期存储在内存中,多个应用可以共享缓存数...
阅读(1777) 评论(9)

解决spark中遇到的数据倾斜问题

解决spark中遇到的数据倾斜问题一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因数据问题 key本身分布不均匀(包括大量的key为空) key的设置不合理 spark使用问题 shuffle时的并发度不够 计算方式有误 三. 数据倾斜的后果 spark中一个stage的执行时间受限于最后那个执行完的task,...
阅读(4825) 评论(0)

spark & 文件压缩

hdfs中存储的文件一般都是多副本存储,对文件进行压缩,不仅可以节约大量空间,适当的存储格式还能对读取性能有非常大的提升。文本文件压缩snappyjson文本压缩率 38.2%,压缩和解压缩时间短。import org.apache.parquet.hadoop.codec.SnappyCodec rdd.saveAsTextFile("codec/snappy",classOf[SnappyCod...
阅读(2448) 评论(0)

Spark & Zeppelin

zeppelin 为交互式分析查询提供了可视化界面。 在zeppelin上使用spark NoteBook,有spark和livy两种方式。 软件版本zeppelin版本:从zeppelin-master编译(已发布0.6)spark版本: 1.6.2livy版本: livy 0.2.0编译部署zeppelingit clone https://github.com/apache/zeppelin....
阅读(2517) 评论(4)
105条 共7页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:292294次
    • 积分:3685
    • 等级:
    • 排名:第8812名
    • 原创:96篇
    • 转载:9篇
    • 译文:0篇
    • 评论:68条
    个人简介
    邮箱:breeze_lsw@163.com
    简书博客: www.jianshu.com/users/dba7cda12069
    最新评论