Spark问题
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
Spark问题1之读入参考序列的adam格式报错empty max
原因:读取方法不对// val rdd = sc.loadParquetContigFragments(args(0))解决办法:val rdd = sc.loadSequence(args(0))运行记录:hadoop@Master:~/xubo/project/load/loadfastaFromHDFSAdamAndCount$ ./loadGRCH38chr14.sh start原创 2017-03-06 10:42:49 · 1891 阅读 · 0 评论 -
Spark问题14之Spark stage retry问题
更多代码请见:https://github.com/xubo245基因数据处理系列之SparkBWA1.解释1.1 简述当partitions超过节点数量的时候Lost executor的问题,已经提交到SparkBWA中,https://github.com/citiususc/SparkBWA/issues/35另外发现,tmp里面有临时文件没有删除,而且stage retry未解决2.记录完整原创 2017-03-06 10:48:37 · 5370 阅读 · 0 评论 -
Spark问题13之Total size of serialized results of 30 tasks (2.0 GB) is bigger than spark.driver.maxResul
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述当使用cs-bwamem输出文件到local的sam时,文件过大,出现问题。driver的默认maxResultSize不够,报错2.运行记录:hadoop@M原创 2017-03-06 10:47:43 · 8360 阅读 · 0 评论 -
Spark问题12之kryoserializer shuffle size 不够,出现overflow
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1运行cs-bwamem是出现序列化shuffle overflow问题,主要是需要输出sam到本地,文件比较大,默认的是:spark.kryoserial原创 2017-03-06 10:47:30 · 5118 阅读 · 2 评论 -
Spark问题11之广播失败
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述运行是出现Error cleaning broadcast 72.运行记录:17/02/28 08:28:48 ERROR ContextCleaner: Er原创 2017-03-06 10:47:20 · 6147 阅读 · 1 评论 -
Spark问题10之Spark运行时节点空间不足导致运行报错
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 简述在写了脚本运行多个application的时候,运行到十几个之后,报错了。org.apache.spark.SparkException: Job原创 2017-03-06 10:47:08 · 2908 阅读 · 0 评论 -
Spark问题9之Spark通过JNI调用c的问题解决
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 描述当scala通过JNI调用c时,使用spark-submit提交时,会出现错误:no JNIparasail in java.library.pat原创 2017-03-06 10:46:51 · 3359 阅读 · 6 评论 -
Spark问题8之worker lost
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 第一次八个节点七个节点dead,worker都lost了,不知道为什么没找到其他日志【3】中也有类似的问题,猜测可能是history增加的原因hadoo原创 2017-03-06 10:46:39 · 1550 阅读 · 0 评论 -
Spark问题7之如何让节点执行指定的core数
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1使用1,2的代码会有1个节点执行连个core1.2 ## 代码hadoop@Master:~/disk2/xubo/project/alignment/S原创 2017-03-06 10:46:18 · 2233 阅读 · 0 评论 -
Spark问题6之Spark丢失excutor之后appport占CPU90%
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 spark lost excutorhadoop@Master:~/disk2/xubo/project/alignment/SparkSW/Spark原创 2017-03-06 10:46:04 · 980 阅读 · 0 评论 -
Spark问题2之window下载hdfs文件的hosts设置
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述window下打开hdfs,会出现问题:hdfs常配置了hosts,访问或者下载hdfs的文件时(通过浏览器),回出现跳转的是hostname,而不是ip,而w原创 2017-03-06 10:43:10 · 972 阅读 · 0 评论 -
Spark问题5之ERROR LiveListenerBus SparkListenerBus has already stopped
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 描述将uniref按照序列长度[0,100).[100,)…进行划分,然后使用sparkSW从HDFS和Alluxio分别读取,并进行性能分析运行过程中原创 2017-03-06 10:44:19 · 13599 阅读 · 4 评论 -
Spark问题4之Excutor lost
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1Mcnode1 的一个excutor丢失: ExecutorLostFailure (executor 2 lost)1.2http://Master原创 2017-03-06 10:44:09 · 1228 阅读 · 0 评论 -
Spark问题3之SparkException:Error notifying standalone scheduler's driver endpoint
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1运行alluxioHDFS.sh的时候出现错误:hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/原创 2017-03-06 10:43:56 · 1756 阅读 · 0 评论 -
基因数据处理54之bwa-mem运行paird-end(1千万条100bp的reads)
指令:```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq g38L100c10000000Nhs20Paired2.fq >g38L100c10000000Nhs20Pai原创 2017-12-18 01:14:46 · 2013 阅读 · 1 评论