关闭

[置顶] ganglia学习1之ganglia集群版搭建(支持hadoop和spark)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.1系统:ubuntu 14.041.理解1.1 ganglia的概述      Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Gan...
阅读(845) 评论(0)

[置顶] spark源码解读4之SortByKey

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解1.1 需求使用spark的时候会经常使用sortBykey,比如wordCount后需要排序,可以使用sortBy,也可以先map然后再sortByKey,soerBy也是调用SortByKey1.2 源码S...
阅读(544) 评论(0)

[置顶] spark源码解读3之RDD中top源码解读

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解输出读取中常用到topK算法,RDD也提供了top方法。特别是RDD过大时,要慎用RDD的collect方法,建议使用take和top方法。如果要有序,可以使用top方法。1.1 定义 def top(num...
阅读(1374) 评论(0)

[置顶] spark源码解读2之水塘抽样算法(Reservoir Sampling)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解  问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获...
阅读(1046) 评论(0)

[置顶] spark源码解读1之Partitioner

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解Partitioner类Partitioner类是用于处理key-value类型的RDD,根据key进行元素划分。Partitioner是一个抽象类。只有两个方法:numPartitions和get...
阅读(1306) 评论(0)

[置顶] Spark入门学习记录之SparkLearning

为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/5730447 SparkLearning代码和数据:https://github.com/xubo245/...
阅读(2678) 评论(1)

[置顶] SparkLearning博客模版

更多代码请见:https://github.com/xubo245/SparkLearning 1解释 2.代码: 3.结果: 参考 【1】 http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html 【2】https://github.com/xubo245/Sp...
阅读(343) 评论(0)

JNI学习1之资料整理大全

更多代码请见:https://github.com/xubo245/JNILearning1.书籍:Java核心技术卷二 第十二章本地方法2.百度云: 深入浅出JNI 第一讲(JNI概述、编写首个JNI程序) 传智播客_Java培训教程_JNI第1-7讲3.开源项目: https://github.com/xubo245/HelloWorldJNIwithRegisterNatives...
阅读(462) 评论(0)

Spark问题14之Spark stage retry问题

更多代码请见:https://github.com/xubo245基因数据处理系列之SparkBWA1.解释1.1 简述当partitions超过节点数量的时候Lost executor的问题,已经提交到SparkBWA中,https://github.com/citiususc/SparkBWA/issues/35另外发现,tmp里面有临时文件没有删除,而且stage retry未解决2.记录完整...
阅读(474) 评论(0)

Spark问题13之Total size of serialized results of 30 tasks (2.0 GB) is bigger than spark.driver.maxResul

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述当使用cs-bwamem输出文件到local的sam时,文件过大,出现问题。driver的默认maxResultSize不够,报错2.运行记录:hadoop@M...
阅读(680) 评论(0)

Spark问题12之kryoserializer shuffle size 不够,出现overflow

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1运行cs-bwamem是出现序列化shuffle overflow问题,主要是需要输出sam到本地,文件比较大,默认的是:spark.kryoserial...
阅读(362) 评论(0)

Spark问题11之广播失败

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述运行是出现Error cleaning broadcast 72.运行记录:17/02/28 08:28:48 ERROR ContextCleaner: Er...
阅读(798) 评论(0)

Spark问题10之Spark运行时节点空间不足导致运行报错

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 简述在写了脚本运行多个application的时候,运行到十几个之后,报错了。org.apache.spark.SparkException: Job...
阅读(278) 评论(0)

Spark问题9之Spark通过JNI调用c的问题解决

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 描述当scala通过JNI调用c时,使用spark-submit提交时,会出现错误:no JNIparasail in java.library.pat...
阅读(492) 评论(0)

Spark问题8之worker lost

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 第一次八个节点七个节点dead,worker都lost了,不知道为什么没找到其他日志【3】中也有类似的问题,猜测可能是history增加的原因hadoo...
阅读(391) 评论(0)

Spark问题7之如何让节点执行指定的core数

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1使用1,2的代码会有1个节点执行连个core1.2 ## 代码hadoop@Master:~/disk2/xubo/project/alignment/S...
阅读(437) 评论(0)

Spark问题6之Spark丢失excutor之后appport占CPU90%

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 spark lost excutorhadoop@Master:~/disk2/xubo/project/alignment/SparkSW/Spark...
阅读(339) 评论(0)

Spark问题5之ERROR LiveListenerBus SparkListenerBus has already stopped

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 描述将uniref按照序列长度[0,100).[100,)…进行划分,然后使用sparkSW从HDFS和Alluxio分别读取,并进行性能分析运行过程中...
阅读(2635) 评论(0)

Spark问题4之Excutor lost

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1Mcnode1 的一个excutor丢失: ExecutorLostFailure (executor 2 lost)1.2http://Master...
阅读(394) 评论(0)

Spark问题3之SparkException:Error notifying standalone scheduler's driver endpoint

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1运行alluxioHDFS.sh的时候出现错误:hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/...
阅读(624) 评论(0)

Spark问题2之window下载hdfs文件的hosts设置

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述window下打开hdfs,会出现问题:hdfs常配置了hosts,访问或者下载hdfs的文件时(通过浏览器),回出现跳转的是hostname,而不是ip,而w...
阅读(391) 评论(0)

Spark问题1之读入参考序列的adam格式报错empty max

原因:读取方法不对// val rdd = sc.loadParquetContigFragments(args(0)) 解决办法:val rdd = sc.loadSequence(args(0)) 运行记录:hadoop@Master:~/xubo/project/load/loadfastaFromHDFSAdamAndCount$ ./loadGRCH38chr14.sh start...
阅读(460) 评论(0)

RISELab实验室正在开发的Ray项目初步尝试记录

Ray是RISELab实验室在开发的一个项目,目前还没有发布(20170208,20170124就听说了),想试下,听说架构和性能都有很大提升。之前学的Spark就是RISELab的前生,AMPlab开发的。sudo apt-get update报错了:Err http://archive.ubuntukylin.com:10006 trusty Release.gpg Unable to co...
阅读(653) 评论(0)

集群部署和配置工具Mark

最近在跟蚂蚁金服的工程师聊的时候,突然想起一个问题,特地请教了下。如果有上千台服务器,如何快速的部署?包括系统和软件。如果一个一个系统安装操作系统,肯定很麻烦,而且耗时。之前也问过一些朋友,但都没得到好的回答。望玄师兄介绍了两个工具ansible和puppet。Mark下。大概查了下,没花太多时间。ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfe...
阅读(316) 评论(0)

使用阿里云E-MapReduce遇到的那些坑

由于需要做实验来验证自己系统的scalability,实验室机器数又不够,所以选择用商业服务器来完成实验。 在AWS和阿里云之间选择了阿里云。在完成试验后对实验过程中遇到的那些坑进行了总结。   自己的实验主要是做一个分布式序列比对系统(DSA: Distributed Sequence Alignment System),测试其中相关算法的scalability  由于是要测性能,所以选择了独享...
阅读(1637) 评论(0)

Ubuntu下解决IDEA与Maven的配置问题:Dmaven.multiModuleProjectDirectory system property is not set

1 问题描述当在ubuntu下使用IDEA 13.0 maven3.3.9的时候mvn package出现问题/usr/lib/jvm/java-7-openjdk-amd64/bin/java -Dmaven.home=/home/xubo/cloud/apache-maven-3.3.9 -Dclassworlds.conf=/home/xubo/cloud/apache-maven-3.3.9...
阅读(709) 评论(2)

基础知识学习1之哈希(Hash)

1.理解1.1 基本概念理解哈希, Hash的音译,也有翻译做“散列”。 可以理解为映射的一种。T[hash[x]]=x, 通过hash函数将值x转换成T对应的下标,然后将值写到该位置. 比如除法hash: 10%9取余1,将10存在T[1].hash平均时间要比链表快,同时可以节省比数组更少的空间。 假设关键字集合为K,关键字域为U,空间可以将至O(|K|).hash使用的场景是数的集合比数的...
阅读(226) 评论(0)
436条 共22页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:551582次
    • 积分:9665
    • 等级:
    • 排名:第2037名
    • 原创:425篇
    • 转载:11篇
    • 译文:0篇
    • 评论:90条
    文章分类
    最新评论