- 博客(33)
- 资源 (23)
- 收藏
- 关注
原创 Adam学习13之Fasta/Fastq/SAM/BAM文件格式数据读取
0.代码(读取方法):package org.bdgenomics.adamLocal.algorithms.testimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.bdgenomics.adam.
2016-04-30 22:33:19 5702
原创 SAM数据格式学习3之官方文档
SAM数据格式学习3之官方文档http://samtools.github.io/hts-specs/SAMv1.pdf其他详细格式:https://github.com/samtools/hts-specs里面很详细
2016-04-29 22:06:45 809
原创 SAM数据格式学习2之FLAG理解
SAM格式:1.FLAG说明: Each bit in the FLAG field is defined as:0x0001 p the read is paired in sequencing0x0002 P the read is mapped in a proper pair0x0004 u the query sequence itself is unmap
2016-04-29 17:25:02 5585
原创 SAM数据格式学习1之CIGAR理解
SAM信息中的一条:SRR003161.2 0 chr7 41381016 60 4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S * 0 0 TCAGTTTGAGATGGAGTTTCATTCTTGTTGCCCAGGCTGGAGTGCAATGGCGCAATCTCAGCTCACAGCAACCTCCGCCTCCCGGGTTCAAGCGATTCTCCTGCCTCAGCC
2016-04-29 17:12:38 13555 6
原创 Spark中组件Mllib的学习2之MovieLensALS学习(集群run-eaxmples运行)
1.将spark下的data文件夹上传到hdfs目录2.运行:hadoop@Master:~/cloud/spark-1.5.2$ ./bin/run-example mllib.MovieLensALS --rank 5 --numIterations 20 --lambda 1.0 --kryo /xubo/spark/data/mllib/sample_movielens
2016-04-27 20:22:35 1906
原创 Spark组件之Spark Streaming学习5--WindowsWordCount学习
更多代码请见:https://github.com/xubo245/SparkLearning1.理解WindowsWordCount是滑动窗口技术的应用,是统计多个窗口,在滑动。可以用于统计最近30秒或者最近一个小时的信息,单个batch还可以保留为1秒,然后每隔10秒或者半个小时的滑动进行统计2.运行:输入:hadoop@Mast
2016-04-26 22:25:54 638
原创 Spark组件之Spark Streaming学习4--HdfsWordCount 学习
1.理解:HdfsWordCount 是从hdfs的文件读入流文件,即制定文件目录,每个一段时间扫描该路径下的文件,不扫描子目录下的文件。如果有新增加的文件,则进行流计算 val ssc = new StreamingContext(sparkConf, Seconds(2))处理跟前面差不多2.运行:输入:hadoop@Master:~/cloud/testB
2016-04-26 21:36:29 1620
原创 Spark组件之Spark Streaming学习3--结合SparkSQL的使用(wordCount)
1.通过建立一个对象来获取Streaming的单例对象 val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext) import sqlContext.implicits._object SQLContextSingleton { @transient private var instance
2016-04-26 17:26:39 2907
原创 Spark组件之Spark Streaming学习2--StatefulNetworkWordCount 学习
运行方法类似:http://blog.csdn.net/xubo245/article/details/512519701.理解StatefulNetworkWordCount 与NetworkWordCount不同的是会进行state标记,然后wordCount是累计,而不是只求一个batch累计的实现是:updateStateByKey,里面有调用newUpdateFunc函数:
2016-04-26 17:19:48 1468
原创 Spark组件之Spark Streaming学习1--NetworkWordCount学习
NetworkWordCount:每个1秒将接收的数据进行wordCount,不累加使用1.方法1:在集群的examples中启动一个terminal:./bin/run-example streaming.NetworkWordCount localhost 9999另外一个terminal:nc -lk 9999可以在这个terminal发送数据,前面一
2016-04-26 17:08:15 1318
原创 GitLab安装并设置为开机启动
gitlab安装步骤1.下载:地址:https://bitnami.com/stack/gitlab/installer下载的版本为:bitnami-gitlab-8.5.7-0-linux-x64-installer.run2.安装:sudo chmod 777 bitnami-gitlab-8.5.7-0-linux-x64-installer.runsud
2016-04-25 17:47:17 15761
原创 基因数据处理25之avocado安装
基因数据处理25之avocado安装下载:git clone https://github.com/bigdatagenomics/avocado.git安装第一次失败,第二次成功hadoop@Master:~/cloud/adam/xubo/code/avocado$ mvn install[INFO] Scanning for projects
2016-04-23 02:26:27 7387
原创 基因数据处理24之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条,4线程)
比默认的要块1倍左右1[M::bwa_idx_load_from_disk] read 0 ALT contigs[bsw2_aln] read 25000 sequences/pairs (14470082 bp) ...[main] Version: 0.7.13-r1126[main] CMD: bwa bwasw -t 4 GRCH38chr1L3556522.fna SRR0
2016-04-22 19:07:25 2315
原创 基因数据处理23之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条)
结论:read为25000条对单条染色体进行比对需要110秒左右,对chr1-4比对需要160秒左右运行结果:1[M::bwa_idx_load_from_disk] read 0 ALT contigs[bsw2_aln] read 17040 sequences/pairs (10000385 bp) ...[bsw2_aln] read 7960 sequences/pai
2016-04-22 18:13:57 1548
原创 基因数据处理22之对GRCH38全基因建立BWA索引
环境:ubuntu 14.04内存 6Gbwa 0.7.12结论:建立索引大概4500秒左右节点2运行:hadoop@Mcnode2:~/cloud/adam/xubo/data/test20160422$ cp ../test20160310/GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_an
2016-04-22 17:36:47 4044
原创 基因数据处理21之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为250条)
1.时间分析对ref为单条染色体进行比对,第一次比对在3-5s不等,对chr1-4比对,在20s左右连续比对多次后,对单染色体比对降到1s左右,chr1-4降到2s左右不懂为什么比一次比对时间比较长,后面几次比对时间变短运行代码:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L35
2016-04-22 16:46:40 1594
原创 基因数据处理20之BWASW算法ref分块建立索引然后比对
SRR003161h20.fastq 三次测试:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L3556522.fna SRR003161h20.fastq >SRR003161h20BWASWchr1.sam[M::bwa_idx_load_from_disk] read 0 ALT contigs
2016-04-22 16:24:31 1912
原创 Adam学习12之loadFasta中的Fragment参数配置
1.fragment 为10000:val fq1 = ac.loadFasta(file1, 10000):hadoop@Master:~/cloud/testByXubo/spark/GRCH38$ ./cluster.sh fq0.count:45850077
2016-04-21 16:30:12 3006
原创 Spark组件之SparkR学习5--R语言函数调用(跨文件调用)
环境:RStudioR-3.2.1Spark组件之SparkR学习5--R语言函数调用(跨文件调用)1.在文件夹func下新建R文件addTest.R: 文件路径:D:/all/R/RStudio/Rtianchi/R/func/addTest.RD:/all/R/RStudio/Rtianchi/为project目录代码:print("addTes
2016-04-21 02:05:09 2671
原创 Spark组件之SparkR学习4--Eclipse下R语言环境搭建
1.下载R地址:eclipse下http://download.walware.de/eclipse-4.3/Learning R这本书上第5页有讲从http://www.walware.de/goto/statet下载,但是没试成功,不确定是否可行继续。。。
2016-04-20 13:12:34 3407
原创 Spark组件之SparkR学习3--使用spark-submit向集群提交R代码文件data-manipulation.R
1.数据准备:1.1 下载数据文件wget http://s3-us-west-2.amazonaws.com/sparkr-data/flights.csv1.2 上传到hdfs: hadoop fs -put flights.csv ./2.运行2.1 默认本地运行:spark-submit --packages com.databricks:spark-cs
2016-04-20 13:00:07 3872
原创 Spark组件之SparkR学习2--使用spark-submit向集群提交R代码文件dataframe.R
环境:spark1.5.2,R-3.2.11.examples1 dataframe.R 1.1 文件来源:参考【1】./bin/spark-submit examples/src/main/r/dataframe.R中代码运行有问题:hadoop@Master:~/cloud/testByXubo/spark/R$ spark-submit dataframe.R
2016-04-20 12:32:27 3207
原创 Spark组件之SparkR学习1--安装与测试
环境:ubuntu:Spark 1.5.2(已装)、R3.2.1Window: Rstudio1.R安装:Spark安装后直接启动SparkR会报错,R找不到,故需要装R(1)R下载:https://cran.r-project.org/src/base/R-3/或者:https://cran.rstudio.com/src/base/R-3/(
2016-04-19 23:55:56 4570 2
原创 Spark生态之Spark-csv学习1之安装和简单的examples
1.安装:(1) Spark-shell:$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0直接运行就进入了shell(2)eclipse的project:可以从(1)中安装的三个jar包导入到project中,jar在/home/hadoop/.ivy2中
2016-04-19 00:15:52 4400
原创 Adam学习11之Adam2.10-0.19搭建问题解决
Adam学习11之Adam2.10-0.19搭建问题解决From:https://github.com/bigdatagenomics/adam/issues/1001install by mvn clean package -DskipTestserror:[INFO] [INFO] ADAM_2.10 ...............................
2016-04-18 10:27:31 4672
原创 Spark疑问2之spark 丢了executor会恢复吗?
Spark疑问2之spark 丢了executor会恢复吗 Lost executorhadoop@Master:~/cloud/testByXubo/spark/GRCH38/test2$ ./cluster.sh fq0.count:45850077 Met
2016-04-17 15:33:35 3816
原创 Spark疑问1之如何查看sparkContext没有关闭的sc
Spark疑问1之如何查看sparkContext没有关闭的在跑完spark程序后有时会忘记执行sc.stophadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887
2016-04-17 15:30:07 8465 1
原创 Adam学习10之集群节点的内存对运行时间的影响
问题:将单节点的内存从512M加到4096M时运行时间不减少反而增加,不解,待解决。是不是单个测试用例的偶然性?hadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887
2016-04-17 14:50:57 846
原创 Adam学习9之对GRCH38的fna文件进行统计操作
第三种方法和第二种方法可以顺利执行,统计出来GRCH38(GCA_000001405.15_GRCh38_full_analysis_set.fna)的信息:fq0.count:45850077 Method 3=> Length:321202 sum3:3.209457
2016-04-17 14:28:37 3517
原创 基因数据处理19之BWA匹配算法串产生、匹配、评价等整体流程
环境:ubunutBWAsamtoolswgsimbwa.kit工具1.数据下载:需要在bwa.kit下bwa.kit/run-gen-ref hs38DH 2.串产生:hadoop@Mcnode1:~/cloud/adam/xubo/data/hs38DH$ wgsim -N 1000 -1 10 hs38DH.fa hs38DHSE1N10000L
2016-04-15 19:41:25 3077 2
原创 基因数据处理18之基因序列生成工具wgsim安装和使用
1.下载:https://github.com/lh3/wgsim可以git或者zip2.安装:gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm3.数据下载:可以使用bwakit下载:https://github.com/lh3/bwa/tree/master/bwakit下载:bwa.kit/run-gen-r
2016-04-15 17:12:57 3790 1
原创 Spark组件之SparkSQL学习1之问题报错No TypeTag available for Person
/** * @author xubo * spark 1.5.2 * * reference :http://spark.apache.org/docs/1.5.2/sql-programming-guide.html */运行Inferring the Schema Using Reflection时报错:代码:// sc is an existing SparkC
2016-04-14 17:20:16 3701
原创 eclipse中安装并编译C/C++
1.下载安装CDThttp://www.eclipse.org/cdt/downloads.php查找地址:http://download.eclipse.org/tools/cdt/releases/kepler在eclipse 中的help中install new software输入并建立:2.安装MinGW并配置环境变量http://www.mingw.or
2016-04-08 12:33:22 844
opencv 3.4.1 jar
2018-05-16
JDK.API.7_English.chm
2015-08-24
Java 2 SE 6 Documentation.chm
2015-08-24
JavaSE中文API.chm
2015-08-24
jdk api 1.7英文版-带索引
2015-08-24
isrgb.m,matlab
2014-03-27
计算方法实验Gauss_Seidel法和Runge_Kutta法
2013-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人