基因数据处理42之mango问题_seqdict.avro不存在解决

原创 2016年05月30日 20:09:06

参考【1】中问题解决
问题分析:这是新版本的问题:adam0.19.1目前在maven中心仓库没有

解决办法:

package org.gcdss.test

import java.io.File
import java.nio.file.Files

import org.apache.parquet.hadoop.metadata.CompressionCodecName
import org.apache.spark.{SparkContext, SparkConf}
import org.bdgenomics.adam.rdd.{ADAMSaveAnyArgs}
import org.bdgenomics.adam.rdd.ADAMContext._

/**
  * Created by xubo on 2016/5/30.
  */
object fastqSaveAdam0191 {
  def resourcePath(path: String) = ClassLoader.getSystemClassLoader.getResource(path).getFile

  def tmpFile(path: String) = Files.createTempDirectory("").toAbsolutePath.toString + "/" + path

  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local[4]").setAppName(this.getClass().getSimpleName().filter(!_.equals('$')))
    val sc = new SparkContext(conf)

    //    val fastqFile = "hs38DHL1F10Len10.fq"
    //    val fastqFile = "mouse_chrM.bam"F
    val fastqFile = " datatest2.sort.bam"
    //    val fastqLoad = sc.loadAlignments(resourcePath(fastqFile))
    val fastqLoad = sc.loadAlignments(fastqFile)
    //    fastqLoad.rdd.take(10).foreach(println)
    //    fastqLoad.rdd.adamParquetSave("adam")


    def tempLocation(suffix: String = ".adam"): String = {
      val tempFile = File.createTempFile("ADAMContextSuite", "")
      val tempDir = tempFile.getParentFile
      new File(tempDir, tempFile.getName + suffix).getAbsolutePath
    }
    val loc = tempLocation()
    println(loc)
    fastqLoad.rdd.saveAsParquet(TestSaveArgs(loc), fastqLoad.sequences, fastqLoad.recordGroups)
    //    fastqLoad.
    println("end")
    sc.stop

  }
}

case class TestSaveArgs(var outputPath: String) extends ADAMSaveAnyArgs {
  var sortFastqOutput = false
  var asSingleFile = false
  var blockSize = 128 * 1024 * 1024
  var pageSize = 1 * 1024 * 1024
  var compressionCodec = CompressionCodecName.GZIP
  var logLevel = "SEVERE"
  var disableDictionaryEncoding = false
}

pom配置:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>


    <groupId>org.gcdss</groupId>
    <artifactId>GCDSS</artifactId>
    <version>1.0-SNAPSHOT</version>


    <properties>
        <adam.version>0.19.1-SNAPSHOT</adam.version>
        <scala.version>2.10.4</scala.version>
        <scala.version.prefix>2.10</scala.version.prefix>
        <scalatra.version>2.4.+</scalatra.version>
        <spark.version>1.5.2</spark.version>
        <parquet.version>1.8.1</parquet.version>
    </properties>

    <repositories>
        <repository>
            <id>central</id>
            <url>http://repo1.maven.org/maven2/</url>
        </repository>
        <repository>
            <id>Sonatype</id>
            <url>http://oss.sonatype.org/content/repositories/snapshots/</url>
        </repository>
        <repository>
            <id>Apache</id>
            <url>http://people.apache.org/repo/m2-snapshot-repository</url>
        </repository>
        <repository>
            <id>SparkPackagesRepo</id>
            <url>http://dl.bintray.com/spark-packages/maven</url>
        </repository>
    </repositories>


    <build>
        <plugins>
            <plugin>
                <groupId>org.scalatest</groupId>
                <artifactId>scalatest-maven-plugin</artifactId>
                <configuration>
                    <reportsDirectory>${project.build.directory}/surefire-reports</reportsDirectory>
                    <junitxml>.</junitxml>
                    <filereports>ADAMTestSuite.txt</filereports>
                    <!--
                        As explained here: http://stackoverflow.com/questions/1660441/java-flag-to-enable-extended-serialization-debugging-info
                        The second option allows us better debugging for serialization-based errors.
                    -->
                    <argLine>-Xmx1024m -Dsun.io.serialization.extendedDebugInfo=true</argLine>
                </configuration>
                <executions>
                    <execution>
                        <id>test</id>
                        <goals>
                            <goal>test</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

    <dependencies>
        <!--<dependency>-->
        <!--<groupId>org.bdgenomics.utils</groupId>-->
        <!--<artifactId>utils-misc_2.10</artifactId>-->
        <!--<type>test-jar</type>-->
        <!--<scope>test</scope>-->
        <!--</dependency>-->
        <!--<dependency>-->
        <!--<groupId>org.bdgenomics.bdg-formats</groupId>-->
        <!--<artifactId>bdg-formats</artifactId>-->
        <!--</dependency>-->

        <dependency>
            <groupId>org.bdgenomics.adam</groupId>
            <artifactId>adam-core_2.10</artifactId>
            <version>${adam.version}</version>
        </dependency>
        <dependency>
            <groupId>org.bdgenomics.adam</groupId>
            <artifactId>adam-core_2.10</artifactId>
            <version>${adam.version}</version>
            <type>test-jar</type>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.bdgenomics.adam</groupId>
            <artifactId>adam-cli_2.10</artifactId>
            <version>${adam.version}</version>
        </dependency>
        <!--<dependency>-->
        <!--<groupId>org.scalatest</groupId>-->
        <!--<artifactId>scalatest_2.10</artifactId>-->
        <!--<scope>test</scope>-->
        <!--</dependency>-->
    </dependencies>

</project>

结果:

hadoop@Master:~/xubo/data/mango$ unzip ADAMContextSuite5309214740546591997.adam.zip 
Archive:  ADAMContextSuite5309214740546591997.adam.zip
   creating: ADAMContextSuite5309214740546591997.adam/
 extracting: ADAMContextSuite5309214740546591997.adam/._SUCCESS.crc  
 extracting: ADAMContextSuite5309214740546591997.adam/._common_metadata.crc  
 extracting: ADAMContextSuite5309214740546591997.adam/._metadata.crc  
 extracting: ADAMContextSuite5309214740546591997.adam/._rgdict.avro.crc  
 extracting: ADAMContextSuite5309214740546591997.adam/._seqdict.avro.crc  
 extracting: ADAMContextSuite5309214740546591997.adam/.part-r-00000.gz.parquet.crc  
 extracting: ADAMContextSuite5309214740546591997.adam/_SUCCESS  
  inflating: ADAMContextSuite5309214740546591997.adam/_common_metadata  
  inflating: ADAMContextSuite5309214740546591997.adam/_metadata  
  inflating: ADAMContextSuite5309214740546591997.adam/_rgdict.avro  
  inflating: ADAMContextSuite5309214740546591997.adam/_seqdict.avro  
  inflating: ADAMContextSuite5309214740546591997.adam/part-r-00000.gz.parquet  

运行环境为idea

参考:
【1】 http://blog.csdn.net/xubo245/article/details/51537256
【2】https://github.com/bigdatagenomics/adam/blob/master/adam-core/src/main/scala/org/bdgenomics/adam/rdd/read/AlignmentRecordRDDFunctions.scala
【3】https://github.com/bigdatagenomics/adam/blob/master/adam-core/src/main/scala/org/bdgenomics/adam/rdd/ADAMContext.scala

版权声明:本文为博主原创文章,欢迎转载和交流!源码交流:https://github.com/xubo245/

基因数据处理41之mango使用失败

这里写代码片
  • bob601450868
  • bob601450868
  • 2016年05月30日 13:30
  • 475

基因数据处理39之mango安装记录

更多代码请见:https://github.com/xubo245/AdamLearning1解释 mango安装记录 mango主要是在adam上实现 可视化平台 A scalable gen...
  • bob601450868
  • bob601450868
  • 2016年05月30日 10:11
  • 435

用动态规划法求解生物信息学中DNA序列比对的问题 (交叉学科应用实验)

#include#include#includeusing namespace std;stack s;//当前搜索路径的LCSstack lcs[100];//所有的LCSint count=0;/...
  • zhihang1103
  • zhihang1103
  • 2013年09月26日 21:37
  • 2044

基因算法解析、设计,以解决背包问题和旅行商问题为例

基因算法说明,设计,实现。针对背包问题和旅行商问题的设计实现
  • JAVA_N4A
  • JAVA_N4A
  • 2017年01月04日 12:31
  • 838

FZU 1040(基因序列相似性问题-CLCS)

Problem 1040 基因序列相似性问题 Accept: 59    Submit: 548 Time Limit: 1000 mSec    Memory Limit : 32768 ...
  • nike0good
  • nike0good
  • 2013年03月02日 13:23
  • 1693

mango分布式分库分表

mongo 用起来很简单方便,很方便学习使用 下面是mango的一些特性: 超高性能,响应速度接近直接使用JDBC采用接口与注解的形式定义DAO,完美结合db与cache操作支持动态sql...
  • zhouziqin
  • zhouziqin
  • 2017年04月01日 15:34
  • 590

基因数据处理1之mapping_to_cram

基因数据处理1之mapping_to_cram 参考资料: A Worked Example Obtain some public data We will use the first 100,...
  • bob601450868
  • bob601450868
  • 2016年03月10日 12:17
  • 1129

关于DNA 碱基序列检验的JAVA代码

This assignment focuses on arrays and file/text processing.  Turn in a file named DNA.java. You will...
  • u013123021
  • u013123021
  • 2016年03月11日 21:20
  • 595

[0] 数组和指针的前世今生

为什么不能运行?//文件1 int mango[100]; //文件2 extern int *mango; //开始使用指针访问文件1中的数组上面的例子是类型不匹配错误,无法正常运行,错误和下面的例...
  • yangfeng2014
  • yangfeng2014
  • 2016年03月26日 15:40
  • 265

缓存中常见的问题及解决方案

缓存技术是网站服务端经常用到的一种技术,在读多写少的业务场景中,通过使用缓存可以有效地提高网站的性能,支撑高并发的访问量,对数据库做到很好的保护。我们在使用缓存的时候,如Redis、Memcached...
  • mathlpz126
  • mathlpz126
  • 2017年11月10日 14:23
  • 81
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基因数据处理42之mango问题_seqdict.avro不存在解决
举报原因:
原因补充:

(最多只允许输入30个字)