
adam
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Adam学习8之数据获取
Adam学习8之数据获取:例如:NA21144和NA12878ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/data/GIH/NA21144ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_projec原创 2016-03-07 11:20:44 · 1720 阅读 · 0 评论 -
Adam学习21之在Ubuntu下编译安装记录
环境: adam-2.10.0.19 clean package test install1.Ubuntu下对adam进行mvn clean package -DskipTestsxubo@xubo:~/cloud/adam-2.10-0.19-git$ mvn clean package -DskipTests[INFO] Scanning for projects...[INFO]原创 2016-05-14 11:27:47 · 1938 阅读 · 0 评论 -
Adam学习22之在window下使用idea的maven编译安装记录
编译时adam-cli会报错,git目录找不到,可以参考http://blog.csdn.net/xubo245/article/details/51177616解决1.mvn installD:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent_2.10-0.19.0 -原创 2016-05-14 12:48:45 · 2265 阅读 · 0 评论 -
Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary
Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary1.代码:package org.bdgenomics.adam.testimport java.nio.file.Filesimport org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADA原创 2016-05-28 18:47:54 · 2172 阅读 · 0 评论 -
Adam学习23之adamSortReadsByReferencePosition源码分析
对已经匹配或者没有匹配的reads进行排序源码: def adamSortReadsByReferencePosition(): RDD[AlignmentRecord] = SortReads.time { log.info("Sorting reads by reference position") // NOTE: In order to keep unmapped reads原创 2016-05-19 18:19:51 · 783 阅读 · 0 评论 -
Adam学习24之MarkDuplicatesSuite修改后有问题
sparkTest("test score") { val poorClippedReads = for (i <- 0 until 5) yield { createMappedRead("1", 44, 142, numClippedBases = 2, avgPhredScore = 30, readName = "poorClipped%d".format(i))原创 2016-05-19 20:52:53 · 679 阅读 · 0 评论 -
Adam学习27之序列化问题解决办法
1.问题:1.1 描述当读入fastq文件后,需要进行转换,比如collect或者读取属性,会出现没有序列化的问题1.2 问题代码:package org.dsw.coreimport org.apache.spark.{SparkContext, SparkConf}import org.bdgenomics.adam.rdd.ADAMContext._/** * Created by xu原创 2016-12-16 17:29:55 · 1219 阅读 · 0 评论 -
Adam学习12之loadFasta中的Fragment参数配置
1.fragment 为10000:val fq1 = ac.loadFasta(file1, 10000):hadoop@Master:~/cloud/testByXubo/spark/GRCH38$ ./cluster.sh fq0.count:45850077原创 2016-04-21 16:30:12 · 3339 阅读 · 0 评论 -
Adam学习1之环境搭建(含window下eclipse配置)
Adam环境搭建(含window下eclipse配置)环境:集群:Ubuntu14.04 +Spark 1.5.2 +scala2.10本地:window7 64 +eclipse4.3.2+scala2.10.41.Adam安装:参考【1】$ git clone https://github.com/bigdatagenomics/adam.git$ cd adam原创 2016-03-05 21:05:33 · 1653 阅读 · 1 评论 -
Adam学习3之ADAMContext类没有找到
Adam学习3之ADAMContext类没有找到问题:hadoop@Mcnode1:~/cloud/adam/xubo/testAdam34/kmer$ ./submitJob.sh Exception in thread "main" java.lang.NoClassDefFoundError: org/bdgenomics/adam/rdd/ADAMContext原创 2016-03-05 21:47:37 · 1081 阅读 · 1 评论 -
Adam学习之6代码解读kmer.scala(附源码)
Adam学习之6源码解读kmer.scala代码:package testAdamimport org.apache.spark._import org.bdgenomics.adam.rdd.ADAMContextimport org.bdgenomics.adam.projections.{AlignmentRecordField, Projection}object kmer原创 2016-03-06 21:50:09 · 1884 阅读 · 1 评论 -
Adam学习20之在window下idea中使用maven进行clean
adam-2.10-0.19在开始用idea编译有问题,主要是adam-core和adam-cli中的pom中引进的插件版本有问题:<plugin> <groupId>org.scoverage</groupId> <artifactId>maven-scoverage-plugin</artifactId> <version>原创 2016-05-14 10:57:19 · 1900 阅读 · 1 评论 -
Adam学习19之在window下eclipse的mvn test
结果为:[INFO] Scanning for projects...[INFO] ------------------------------------------------------------------------[INFO] Reactor Build Order:[INFO] [INFO] ADAM_2.10[INFO] ADAM_2.10: Core[INFO] AD原创 2016-05-12 19:02:23 · 1161 阅读 · 0 评论 -
Adam学习18之在window下用eclipse中的maven插件进行编译打包
之前老在eclipse下无法用maven编译成功,在直接使用maven时候(参考【1】)就可以在eclipse下用maven编译打包了:pom.xml->run as ->build->mvn clean package -DskipTests 记录:[INFO] Scanning for projects...[INFO] ------------------原创 2016-05-12 18:53:02 · 1221 阅读 · 0 评论 -
Adam学习10之集群节点的内存对运行时间的影响
问题:将单节点的内存从512M加到4096M时运行时间不减少反而增加,不解,待解决。是不是单个测试用例的偶然性?hadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887原创 2016-04-17 14:50:57 · 1076 阅读 · 0 评论 -
ADAM学习之4集群安装(未成功)
ADAM学习之4集群安装(未成功)1.基本:$ git clone https://github.com/bigdatagenomics/adam.git$ cd adam$ export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=256m"2.安装maven3.配置pom.xml原创 2016-03-05 22:37:46 · 1102 阅读 · 1 评论 -
Adam学习之7代码kmer.scala完善(统计和SaveAsFile)
Adam学习之7代码kmer.scala完善(统计和SaveAsFile)代码:package testAdamimport org.apache.spark._import org.bdgenomics.adam.rdd.ADAMContextimport org.bdgenomics.adam.projections.{AlignmentRecordField, Proj原创 2016-03-07 11:16:20 · 1138 阅读 · 0 评论 -
Adam学习2之adam-shell使用
Adam学习2之adam-shell使用环境:集群:Ubuntu14.04 +Spark 1.5.2 +scala2.10//本地:window7 64 +eclipse4.3.2+scala2.10.4代码:import org.bdgenomics.adam.rdd.ADAMContextimport org.bdgenomics.adam原创 2016-03-05 21:18:20 · 1233 阅读 · 0 评论 -
Adam学习13之Fasta/Fastq/SAM/BAM文件格式数据读取
0.代码(读取方法):package org.bdgenomics.adamLocal.algorithms.testimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.bdgenomics.adam.原创 2016-04-30 22:33:19 · 5804 阅读 · 0 评论 -
Adam学习14之Fasta在Adam中的初始存储格式NucleotideContigFragment
更多Adam学习代码等资料请见:https://github.com/xubo245/AdamLearning1.Fasta格式在Adam里面的Avro模式是NucleotideContigFragment,具体在packageorg.bdgenomics.formats.avro包下,这个包在bdg-formats项目下,更多的可以看git:https://github.com/原创 2016-05-01 01:21:51 · 870 阅读 · 0 评论 -
Adam学习15之Fastq在Adam中的初始存储格式AlignmentRecord
1.参考2中提高了具体的,cp过来:{"readNum": null, "contig": null, "start": null, "oldPosition": null, "end": null, "mapq": null, "readName": "chrUn_KN707606v1_decoy_1204_1728_0:0:0_1:0:0_0", "sequence": "CTCCTCGC原创 2016-05-01 02:31:36 · 701 阅读 · 0 评论 -
Adam学习16之SAM/BAM在Adam中的初始存储格式AlignmentRecord
1.SAM/BAM和Fastq一样的Avro,不详细就写了2,数据:{"readNum": 0, "contig": {"contigName": "chrUn_KN707606v1_decoy", "contigLength": 2200, "contigMD5": null, "referenceURL": null, "assembly": null, "species":原创 2016-05-01 02:51:56 · 884 阅读 · 0 评论 -
Adam学习11之Adam2.10-0.19搭建问题解决
Adam学习11之Adam2.10-0.19搭建问题解决From:https://github.com/bigdatagenomics/adam/issues/1001install by mvn clean package -DskipTestserror:[INFO] [INFO] ADAM_2.10 ...............................原创 2016-04-18 10:27:31 · 4780 阅读 · 0 评论 -
Adam学习17之在window下直接使用maven对Adam进行编译打包
安装Adam——2.10-0.191.配置基本环境:jdk1.7scala-2.10.4maven 3.3.9查看版本:D:\all\eclipse432\adam-2.10-0.19-git-bin\adam-2.10-0.19-git>javac -versionjavac 1.7.0_25D:\all\eclipse432\adam-2原创 2016-05-12 17:16:59 · 1305 阅读 · 0 评论 -
Adam学习9之对GRCH38的fna文件进行统计操作
第三种方法和第二种方法可以顺利执行,统计出来GRCH38(GCA_000001405.15_GRCh38_full_analysis_set.fna)的信息:fq0.count:45850077 Method 3=> Length:321202 sum3:3.209457原创 2016-04-17 14:28:37 · 4221 阅读 · 0 评论