基因数据处理
文章平均质量分 92
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
基因数据处理16之scala对BWASW运行结果进行时间统计
说明:环境如上篇对BWASW数据处理的时候pattern需要修改,由于有很多这样的段:[bsw2_aln] read 17598 sequences/pairs (10000016 bp) ...[bsw2_aln] read 17644 sequences/pairs (10000056 bp) ...[bsw2_aln] read 17650 sequences/pai原创 2016-03-17 18:47:03 · 1215 阅读 · 0 评论 -
基因数据处理15之scala对BWA运行结果进行时间提取
环境:window eclpise 4.3.2scala 2.10.4正则表达式代码:package testimport scala.io.Source import java.io.File._import java.io.PrintWriterobject logPatternBWA extends App {val out=new PrintWr原创 2016-03-16 18:21:19 · 1521 阅读 · 0 评论 -
基因数据处理17之使用scala对BWA运行结果进行各阶段程序时间提取和统计求和
提取代码:package testimport scala.io.Source import java.io.File._import java.io.PrintWriterobject logPatternBwaAll extends App {val out=new PrintWriter("file/bwaResult/allbwa.txt")val files = (ne原创 2016-03-17 18:54:13 · 1122 阅读 · 0 评论 -
基因数据处理2之ftp数据快速查找
基因数据处理2之ftp数据快速查找linux下可以用grep:curl -s "ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/current.tree" | grep NA12878运行结果:hadoop@Mcnode1:~/cloud/adam/xubo/testAdam34/TestBaiBas$ curl -s "ftp://f原创 2016-03-10 21:21:07 · 1540 阅读 · 0 评论 -
基因数据处理3之bwakit安装和使用
基因数据处理3之bwakit安装和使用1.下载方法1:http://bio-bwa.sourceforge.net/方法2:https://github.com/lh3/bwa/tree/master/bwakit方法3: wget http://sourceforge.net/projects/bio-bwa/files/bwakit/bwakit-0原创 2016-03-11 12:28:28 · 2189 阅读 · 0 评论 -
基因数据处理4之BWA索引内存不够
基因数据处理4之BWA索引内存不够hadoop@Mcnode1:~/cloud/adam/xubo/data/data_HDFS/Ref/RefFromBwaGit$ bwa index GRCH38.fa [bwa_index] Pack FASTA... 37.70 sec[bwa_index] Construct BWT for the packed sequence..原创 2016-03-11 16:19:57 · 3621 阅读 · 1 评论 -
基因数据处理5之GRCH38数据源和查看信息
数据源:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_full_analysis_set.fna.gz可以用ftp或者wget解压:gzip -d GCA_000001405.15原创 2016-03-11 19:29:06 · 16404 阅读 · 0 评论 -
基因数据处理9之BWA小数据集测试(成功)
基因数据处理9之BWA小数据集测试(成功)hadoop@Mcnode1:~/cloud/adam/xubo/data/data_HDFS/GRCH38/GCA_000001405.15_GRCh38/test20160310$ cat SRR003161.fastq |head -20 >SRR003161h20.fastqhadoop@Mcnode1:~/cloud/adam/xubo原创 2016-03-12 22:52:38 · 2241 阅读 · 0 评论 -
基因数据处理6之BWA_MEM无法分配内存
基因数据处理之BWA_MEM无法分配内存: 建立BWA索引的时候内存不足,现在用BWA-MEM又内存不足,真耗内存hadoop@Mcnode1:~/cloud/adam/xubo/data/data_HDFS/GRCH38/GCA_000001405.15_GRCh38/test20160310$ bwa mem GCA_000001405.15_GRCh38/GCA_原创 2016-03-12 14:26:10 · 3830 阅读 · 7 评论 -
基因数据处理10之BWA处理速度太慢
基因数据处理9之BWA处理速度太慢:hadoop@Mcnode1:~/cloud/adam/xubo/data/data_HDFS/GRCH38/GCA_000001405.15_GRCh38/test20160310$ bwa aln GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_analysis_set.fna SRR003161原创 2016-03-13 14:30:00 · 2732 阅读 · 0 评论 -
基因数据处理7之BWA_MEM运行太长
基因数据处理6之BWA_MEM运行太长hadoop@Master:~/cloud/adam/xubo/data/test20160310$ bwa mem GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_analysis_set.fna SRR003161.fastq >SRR003161b.sam[M::bwa_idx_load原创 2016-03-12 22:03:50 · 2834 阅读 · 0 评论 -
基因数据处理11之sam文件格式
基因数据处理11之sam文件格式SAM的全称是sequence alignment map format。而BAM就是SAM的二进制文件(B取自binary)1. read名称2. SAM标记3. chromosome4. 5′端起始位置5. MAPQ(mapping quality,描述比对的质量,数字越大,特异性越高)6. CIGAR字串,记录插入,删除,错配以及s原创 2016-03-13 16:44:49 · 3511 阅读 · 0 评论 -
基因数据处理12之samtool的tview来查看sam的匹配文件
基因数据处理12之samtool的tview来查看sam的匹配文件具体的之前有文章讲过:http://blog.csdn.net/xubo245/article/details/50836185记录:1.运行 samtools tview SRR003161h20Sorted.bam GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh原创 2016-03-13 17:41:41 · 7864 阅读 · 0 评论 -
基因数据处理13之bwa处理SRR003161
基因数据处理13之bwa处理SRR003161hadoop@Master:~/cloud/adam/xubo/data/test20160310$ bwa aln GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_analysis_set.fna SRR003161.fastq >SRR003161.sai[bwa_aln] 17b原创 2016-03-13 19:04:05 · 1459 阅读 · 0 评论 -
基因数据处理8之BWA_MEM小数据集处理(成功)
基因数据处理7之BWA_MEM小数据集处理环境:ubuntu14.04 6G内存参考基因:GRCH38 来源请参考【1】fastq数据:SRR003161.fastq 的头20行,即5条reads操作记录:hadoop@Master:~/cloud/adam/xubo/data/test20160310$ cat SRR003161.fastq |head -20 >S原创 2016-03-12 22:09:58 · 4179 阅读 · 0 评论 -
基因数据处理14之BWA三种方式bwa、BWA_SW、BWA_MEM使用
1.构建索引:bwa index ref.fa或者从ftp下载,请参考【1】2.BWA:bwa.sh为脚本文件hadoop@Master:~/cloud/adam/xubo/data/test20160310/bwa3sh$ cat bwa.sh #!/bin/bashbwa aln ../GCA_000001405.15_GRCh38/GCA_000001405.原创 2016-03-13 20:30:44 · 10996 阅读 · 0 评论 -
基因数据处理19之BWA匹配算法串产生、匹配、评价等整体流程
环境:ubunutBWAsamtoolswgsimbwa.kit工具1.数据下载:需要在bwa.kit下bwa.kit/run-gen-ref hs38DH 2.串产生:hadoop@Mcnode1:~/cloud/adam/xubo/data/hs38DH$ wgsim -N 1000 -1 10 hs38DH.fa hs38DHSE1N10000L原创 2016-04-15 19:41:25 · 3033 阅读 · 2 评论 -
基因数据处理1之mapping_to_cram
基因数据处理1之mapping_to_cram参考资料:A Worked ExampleObtain some public dataWe will use the first 100,000 read-pairs from a yeast data set.curl ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR507/SRR5077原创 2016-03-10 12:17:52 · 2581 阅读 · 0 评论 -
基因数据处理18之基因序列生成工具wgsim安装和使用
1.下载:https://github.com/lh3/wgsim可以git或者zip2.安装:gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm3.数据下载:可以使用bwakit下载:https://github.com/lh3/bwa/tree/master/bwakit下载:bwa.kit/run-gen-r原创 2016-04-15 17:12:57 · 3705 阅读 · 1 评论 -
基因数据处理26之bcftools安装和使用
1.下载:https://github.com/samtools/bcftools2.安装 make make install3.结合samtools使用 对排序好的bam数据用samtools生成bcf文件:xubo@xubo:~/xubo/data/testTools/se$ samtools mpileup -ugf ../hs38DH.fa hs2.sort.bam >hs2.bcf原创 2016-05-27 21:23:13 · 9683 阅读 · 1 评论 -
基因数据处理27之FastQC在linux下安装运行
FastQC是评价基因数据质量的软件。1.下载: http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc2.解压配置: unzip 配置:ln -s /path/to/FastQC/fastqc /usr/local/bin/fastqc参考【1】3.运行:xubo@xubo:~/cloud/FastQC$原创 2016-05-26 21:40:02 · 11673 阅读 · 2 评论 -
基因数据处理28之avocado运行
需要注意的是如果使用avocado的命令行,fs和fq为hdfs路径,properties为本地路径:hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs1.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527 /home/hadoop/cloud/avoc原创 2016-05-27 22:36:53 · 1107 阅读 · 0 评论 -
基因数据处理29之avocado运行snap-basic有问题
hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs2.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527NUMhs2snap /home/hadoop/xubo/data/testTools/se/snap-basic.propertiesUsing原创 2016-05-27 23:08:26 · 989 阅读 · 0 评论 -
基因数据处理30之avocado运行avocado-cli中的avocado问题1和2
问题1:avocado中的run方法中: println("stats.coverage:" + stats.coverage)调用的是: lazy val coverage = ComputingCoverage.time { ScoreCoverage(inputDataset) }然后报错:Exception in thread "main" java.lang.Unsupp原创 2016-05-28 15:20:28 · 922 阅读 · 0 评论 -
基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null)
读入的read为: val fqFile = "hs38DHSE1L100F1.sam"读取结果:cleanedReads.count:1{"readNum": 0, "contig": {"contigName": "chrUn_KN707963v1_decoy", "contigLength": 62955, "contigMD5": null, "referenceURL": null, "原创 2016-05-28 15:50:11 · 1081 阅读 · 0 评论 -
基因数据处理33之Avocado运行记录(参考基因组)
1.数据下载: avocaodo的test resource中2.预处理: cat Homo_sapiens_assembly19.fasta | grep -i -n '>' > Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19.fasta | hea原创 2016-05-28 19:51:21 · 1116 阅读 · 0 评论 -
基因数据处理34之使用samtools和bcftools进行变异分析
1.指令: (1)samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058.sorted.bam > NA12878_snp_A2G_chr20_225058.variants或者:samtools mpileup -vf Homo_sapiens_assembly19chr20.fas原创 2016-05-28 21:22:21 · 7097 阅读 · 2 评论 -
基因数据处理35之使用samtools和bcftools进行变异分析2--连续处理
指令:samtools mpileup -uf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058_longer.sorted.bam | bcftools call -mv > NA12878_snp_A2G_chr20_225058_longer.raw.vcfbcftools filter -s LowQual -e原创 2016-05-28 21:25:37 · 4640 阅读 · 0 评论 -
基因数据处理36之qc-metrics安装
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics, useable for pipeline quality control purposes qc-metrics主要是用于read和变异的度量,流水线质量控制的目的2.代码:git clon原创 2016-05-29 13:38:55 · 946 阅读 · 0 评论 -
基因数据处理37之bdg-formats编译成功
更多代码请见:https://github.com/xubo245/AdamLearning1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式,包括read、sam、vcf、databaseannotion在云平台上的格式,主要用于Adam系统中2.代码: 【2】下载 编译:mvn clean package -DskipTests3.结果:[WARNING]原创 2016-05-29 16:13:21 · 707 阅读 · 0 评论 -
基因数据处理38之dbSnpId到omimId的映射表
1.下载: 首先收到【2】,来源是【2】 【1】中有描述:You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table contains the information you need for your organisi原创 2016-05-29 19:39:59 · 897 阅读 · 0 评论 -
基因数据处理39之mango安装记录
更多代码请见:https://github.com/xubo245/AdamLearning1解释 mango安装记录 mango主要是在adam上实现 可视化平台 A scalable genome browser2.代码:git clone https://github.com/bigdatagenomics/mango.gitcd mangomvn clean package -Ds原创 2016-05-30 10:11:57 · 1056 阅读 · 0 评论 -
基因数据处理40之bedtools的安装和使用
下载:编译3. 4.运行: bam变成bedhadoop@Master:~/xubo/data/snap$ bamToBed -i datatest.sorted.bam >datatest.sorted.bed5.记录:这里写代码片原创 2016-05-30 13:01:48 · 4562 阅读 · 2 评论 -
基因数据处理41之mango使用失败
这里写代码片原创 2016-05-30 13:30:58 · 1103 阅读 · 0 评论 -
基因数据处理42之mango问题_seqdict.avro不存在解决
参考【1】中问题解决 问题分析:这是新版本的问题:adam0.19.1目前在maven中心仓库没有解决办法:package org.gcdss.testimport java.io.Fileimport java.nio.file.Filesimport org.apache.parquet.hadoop.metadata.CompressionCodecNameimport org.apac原创 2016-05-30 20:09:06 · 713 阅读 · 0 评论 -
基因数据处理43之mango之503错误
HTTP ERROR: 503Problem accessing /. Reason: Service UnavailablePowered by Jetty://更详细请见: https://github.com/bigdatagenomics/mango/issues/181原创 2016-05-30 20:35:02 · 576 阅读 · 0 评论 -
基因数据处理20之BWASW算法ref分块建立索引然后比对
SRR003161h20.fastq 三次测试:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L3556522.fna SRR003161h20.fastq >SRR003161h20BWASWchr1.sam[M::bwa_idx_load_from_disk] read 0 ALT contigs原创 2016-04-22 16:24:31 · 1872 阅读 · 0 评论 -
基因数据处理21之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为250条)
1.时间分析对ref为单条染色体进行比对,第一次比对在3-5s不等,对chr1-4比对,在20s左右连续比对多次后,对单染色体比对降到1s左右,chr1-4降到2s左右不懂为什么比一次比对时间比较长,后面几次比对时间变短运行代码:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L35原创 2016-04-22 16:46:40 · 1553 阅读 · 0 评论 -
基因数据处理22之对GRCH38全基因建立BWA索引
环境:ubuntu 14.04内存 6Gbwa 0.7.12结论:建立索引大概4500秒左右节点2运行:hadoop@Mcnode2:~/cloud/adam/xubo/data/test20160422$ cp ../test20160310/GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_an原创 2016-04-22 17:36:47 · 3925 阅读 · 0 评论 -
基因数据处理23之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条)
结论:read为25000条对单条染色体进行比对需要110秒左右,对chr1-4比对需要160秒左右运行结果:1[M::bwa_idx_load_from_disk] read 0 ALT contigs[bsw2_aln] read 17040 sequences/pairs (10000385 bp) ...[bsw2_aln] read 7960 sequences/pai原创 2016-04-22 18:13:57 · 1517 阅读 · 0 评论