自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!

  • 博客(33)
  • 资源 (23)
  • 收藏
  • 关注

原创 Adam学习13之Fasta/Fastq/SAM/BAM文件格式数据读取

0.代码(读取方法):package org.bdgenomics.adamLocal.algorithms.testimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.bdgenomics.adam.

2016-04-30 22:33:19 5702

原创 SAM数据格式学习3之官方文档

SAM数据格式学习3之官方文档http://samtools.github.io/hts-specs/SAMv1.pdf其他详细格式:https://github.com/samtools/hts-specs里面很详细

2016-04-29 22:06:45 809

原创 SAM数据格式学习2之FLAG理解

SAM格式:1.FLAG说明: Each bit in the FLAG field is defined as:0x0001 p the read is paired in sequencing0x0002 P the read is mapped in a proper pair0x0004 u the query sequence itself is unmap

2016-04-29 17:25:02 5585

原创 SAM数据格式学习1之CIGAR理解

SAM信息中的一条:SRR003161.2 0 chr7 41381016 60 4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S * 0 0 TCAGTTTGAGATGGAGTTTCATTCTTGTTGCCCAGGCTGGAGTGCAATGGCGCAATCTCAGCTCACAGCAACCTCCGCCTCCCGGGTTCAAGCGATTCTCCTGCCTCAGCC

2016-04-29 17:12:38 13555 6

原创 Spark中组件Mllib的学习2之MovieLensALS学习(集群run-eaxmples运行)

1.将spark下的data文件夹上传到hdfs目录2.运行:hadoop@Master:~/cloud/spark-1.5.2$ ./bin/run-example mllib.MovieLensALS --rank 5 --numIterations 20 --lambda 1.0 --kryo /xubo/spark/data/mllib/sample_movielens

2016-04-27 20:22:35 1906

原创 Spark组件之Spark Streaming学习5--WindowsWordCount学习

更多代码请见:https://github.com/xubo245/SparkLearning1.理解WindowsWordCount是滑动窗口技术的应用,是统计多个窗口,在滑动。可以用于统计最近30秒或者最近一个小时的信息,单个batch还可以保留为1秒,然后每隔10秒或者半个小时的滑动进行统计2.运行:输入:hadoop@Mast

2016-04-26 22:25:54 638

原创 Spark组件之Spark Streaming学习4--HdfsWordCount 学习

1.理解:HdfsWordCount 是从hdfs的文件读入流文件,即制定文件目录,每个一段时间扫描该路径下的文件,不扫描子目录下的文件。如果有新增加的文件,则进行流计算 val ssc = new StreamingContext(sparkConf, Seconds(2))处理跟前面差不多2.运行:输入:hadoop@Master:~/cloud/testB

2016-04-26 21:36:29 1620

原创 Spark组件之Spark Streaming学习3--结合SparkSQL的使用(wordCount)

1.通过建立一个对象来获取Streaming的单例对象 val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext) import sqlContext.implicits._object SQLContextSingleton { @transient private var instance

2016-04-26 17:26:39 2907

原创 Spark组件之Spark Streaming学习2--StatefulNetworkWordCount 学习

运行方法类似:http://blog.csdn.net/xubo245/article/details/512519701.理解StatefulNetworkWordCount 与NetworkWordCount不同的是会进行state标记,然后wordCount是累计,而不是只求一个batch累计的实现是:updateStateByKey,里面有调用newUpdateFunc函数:

2016-04-26 17:19:48 1468

原创 Spark组件之Spark Streaming学习1--NetworkWordCount学习

NetworkWordCount:每个1秒将接收的数据进行wordCount,不累加使用1.方法1:在集群的examples中启动一个terminal:./bin/run-example streaming.NetworkWordCount localhost 9999另外一个terminal:nc -lk 9999可以在这个terminal发送数据,前面一

2016-04-26 17:08:15 1318

原创 GitLab安装并设置为开机启动

gitlab安装步骤1.下载:地址:https://bitnami.com/stack/gitlab/installer下载的版本为:bitnami-gitlab-8.5.7-0-linux-x64-installer.run2.安装:sudo chmod 777 bitnami-gitlab-8.5.7-0-linux-x64-installer.runsud

2016-04-25 17:47:17 15761

原创 基因数据处理25之avocado安装

基因数据处理25之avocado安装下载:git clone https://github.com/bigdatagenomics/avocado.git安装第一次失败,第二次成功hadoop@Master:~/cloud/adam/xubo/code/avocado$ mvn install[INFO] Scanning for projects

2016-04-23 02:26:27 7387

原创 基因数据处理24之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条,4线程)

比默认的要块1倍左右1[M::bwa_idx_load_from_disk] read 0 ALT contigs[bsw2_aln] read 25000 sequences/pairs (14470082 bp) ...[main] Version: 0.7.13-r1126[main] CMD: bwa bwasw -t 4 GRCH38chr1L3556522.fna SRR0

2016-04-22 19:07:25 2315

原创 基因数据处理23之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条)

结论:read为25000条对单条染色体进行比对需要110秒左右,对chr1-4比对需要160秒左右运行结果:1[M::bwa_idx_load_from_disk] read 0 ALT contigs[bsw2_aln] read 17040 sequences/pairs (10000385 bp) ...[bsw2_aln] read 7960 sequences/pai

2016-04-22 18:13:57 1548

原创 基因数据处理22之对GRCH38全基因建立BWA索引

环境:ubuntu 14.04内存 6Gbwa 0.7.12结论:建立索引大概4500秒左右节点2运行:hadoop@Mcnode2:~/cloud/adam/xubo/data/test20160422$ cp ../test20160310/GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_an

2016-04-22 17:36:47 4044

原创 基因数据处理21之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为250条)

1.时间分析对ref为单条染色体进行比对,第一次比对在3-5s不等,对chr1-4比对,在20s左右连续比对多次后,对单染色体比对降到1s左右,chr1-4降到2s左右不懂为什么比一次比对时间比较长,后面几次比对时间变短运行代码:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L35

2016-04-22 16:46:40 1594

原创 基因数据处理20之BWASW算法ref分块建立索引然后比对

SRR003161h20.fastq 三次测试:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L3556522.fna SRR003161h20.fastq >SRR003161h20BWASWchr1.sam[M::bwa_idx_load_from_disk] read 0 ALT contigs

2016-04-22 16:24:31 1912

原创 Adam学习12之loadFasta中的Fragment参数配置

1.fragment 为10000:val fq1 = ac.loadFasta(file1, 10000):hadoop@Master:~/cloud/testByXubo/spark/GRCH38$ ./cluster.sh fq0.count:45850077

2016-04-21 16:30:12 3006

原创 Spark组件之SparkR学习5--R语言函数调用(跨文件调用)

环境:RStudioR-3.2.1Spark组件之SparkR学习5--R语言函数调用(跨文件调用)1.在文件夹func下新建R文件addTest.R: 文件路径:D:/all/R/RStudio/Rtianchi/R/func/addTest.RD:/all/R/RStudio/Rtianchi/为project目录代码:print("addTes

2016-04-21 02:05:09 2671

原创 Spark组件之SparkR学习4--Eclipse下R语言环境搭建

1.下载R地址:eclipse下http://download.walware.de/eclipse-4.3/Learning R这本书上第5页有讲从http://www.walware.de/goto/statet下载,但是没试成功,不确定是否可行继续。。。

2016-04-20 13:12:34 3407

原创 Spark组件之SparkR学习3--使用spark-submit向集群提交R代码文件data-manipulation.R

1.数据准备:1.1 下载数据文件wget http://s3-us-west-2.amazonaws.com/sparkr-data/flights.csv1.2 上传到hdfs: hadoop fs -put flights.csv ./2.运行2.1 默认本地运行:spark-submit --packages com.databricks:spark-cs

2016-04-20 13:00:07 3872

原创 Spark组件之SparkR学习2--使用spark-submit向集群提交R代码文件dataframe.R

环境:spark1.5.2,R-3.2.11.examples1   dataframe.R 1.1 文件来源:参考【1】./bin/spark-submit examples/src/main/r/dataframe.R中代码运行有问题:hadoop@Master:~/cloud/testByXubo/spark/R$ spark-submit dataframe.R

2016-04-20 12:32:27 3207

原创 Spark组件之SparkR学习1--安装与测试

环境:ubuntu:Spark 1.5.2(已装)、R3.2.1Window: Rstudio1.R安装:Spark安装后直接启动SparkR会报错,R找不到,故需要装R(1)R下载:https://cran.r-project.org/src/base/R-3/或者:https://cran.rstudio.com/src/base/R-3/(

2016-04-19 23:55:56 4570 2

原创 Spark生态之Spark-csv学习1之安装和简单的examples

1.安装:(1) Spark-shell:$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0直接运行就进入了shell(2)eclipse的project:可以从(1)中安装的三个jar包导入到project中,jar在/home/hadoop/.ivy2中

2016-04-19 00:15:52 4400

原创 Adam学习11之Adam2.10-0.19搭建问题解决

Adam学习11之Adam2.10-0.19搭建问题解决From:https://github.com/bigdatagenomics/adam/issues/1001install by mvn clean package -DskipTestserror:[INFO] [INFO] ADAM_2.10 ...............................

2016-04-18 10:27:31 4672

原创 Spark疑问2之spark 丢了executor会恢复吗?

Spark疑问2之spark 丢了executor会恢复吗 Lost executorhadoop@Master:~/cloud/testByXubo/spark/GRCH38/test2$ ./cluster.sh fq0.count:45850077 Met

2016-04-17 15:33:35 3816

原创 Spark疑问1之如何查看sparkContext没有关闭的sc

Spark疑问1之如何查看sparkContext没有关闭的在跑完spark程序后有时会忘记执行sc.stophadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887

2016-04-17 15:30:07 8465 1

原创 Adam学习10之集群节点的内存对运行时间的影响

问题:将单节点的内存从512M加到4096M时运行时间不减少反而增加,不解,待解决。是不是单个测试用例的偶然性?hadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887

2016-04-17 14:50:57 846

原创 Adam学习9之对GRCH38的fna文件进行统计操作

第三种方法和第二种方法可以顺利执行,统计出来GRCH38(GCA_000001405.15_GRCh38_full_analysis_set.fna)的信息:fq0.count:45850077 Method 3=> Length:321202 sum3:3.209457

2016-04-17 14:28:37 3517

原创 基因数据处理19之BWA匹配算法串产生、匹配、评价等整体流程

环境:ubunutBWAsamtoolswgsimbwa.kit工具1.数据下载:需要在bwa.kit下bwa.kit/run-gen-ref hs38DH 2.串产生:hadoop@Mcnode1:~/cloud/adam/xubo/data/hs38DH$ wgsim -N 1000 -1 10 hs38DH.fa hs38DHSE1N10000L

2016-04-15 19:41:25 3077 2

原创 基因数据处理18之基因序列生成工具wgsim安装和使用

1.下载:https://github.com/lh3/wgsim可以git或者zip2.安装:gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm3.数据下载:可以使用bwakit下载:https://github.com/lh3/bwa/tree/master/bwakit下载:bwa.kit/run-gen-r

2016-04-15 17:12:57 3790 1

原创 Spark组件之SparkSQL学习1之问题报错No TypeTag available for Person

/** * @author xubo * spark 1.5.2 * * reference :http://spark.apache.org/docs/1.5.2/sql-programming-guide.html */运行Inferring the Schema Using Reflection时报错:代码:// sc is an existing SparkC

2016-04-14 17:20:16 3701

原创 eclipse中安装并编译C/C++

1.下载安装CDThttp://www.eclipse.org/cdt/downloads.php查找地址:http://download.eclipse.org/tools/cdt/releases/kepler在eclipse 中的help中install new software输入并建立:2.安装MinGW并配置环境变量http://www.mingw.or

2016-04-08 12:33:22 844

CarbonData学习资料

Apache CarbonData学习文档汇总,包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

高级Shell脚本编程

高级Shell脚本编程,高级Shell脚本编程

2016-03-15

2015年中国软件开发者白皮书

2015年中国软件开发者白皮书

2016-01-12

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz,官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT,资金流入 流出预测 冠军答辩PPT 阿里云 天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz,redis-3.0.4安装包,官网下载

2015-09-09

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范 本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

10部算法经典著作的合集

10部算法经典著作的合集

2015-08-20

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1], and A must be M-by-N-by-3. % % - If A is of class uint8 or uint16, A must be M-by-N-by-3. % % Note that a four-dimensional array that contains multiple RGB % images returns 0, not 1. % % Class Support % ------------- % A can be of class uint8, uint16, or double. If A is of % class logical it is considered not to be RGB. % % See also ISBW, ISGRAY, ISIND. % Copyright 1993-2003 The MathWorks, Inc. % $Revision: 1.15.4.2 $ $Date: 2003/08/23 05:52:55 $ wid = sprintf('Images:%s:obsoleteFunction',mfilename); str1= sprintf('%s is obsolete and may be removed in the future.',mfilename); str2 = 'See product release notes for more information.'; warning(wid,'%s\n%s',str1,str2); y = size(x,3)==3; if y if isa(x, 'logical') y = false; elseif isa(x, 'double') % At first just test a small chunk to get a possible quick negative m = size(x,1); n = size(x,2); chunk = x(1:min(m,10),1:min(n,10),:); y = (min(chunk(:))>=0 && max(chunk(:))=0 && max(x(:))<=1); end end end

2014-03-27

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波 实验要求: 第二版208页程序15 第二版208页程序20,将二阶改为四阶,求第二个 实验环境: 操作系统:Windows8 64位  编译软件:Code::Blocks 版本:10.05 位数:32位 实验提交时间:  考前 实验说明: Gauss_Seidel: 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 Runge_Kutta 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 附件: 程序15:Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图 程序20:Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图 实验心得:   通过这次实验,对Gauss_Seidel法和Runge_Kutta法了解更深,并且有了实际运行经验,而且通过编程,对方法每一步的运算数据的输入输出了解更深,总的来说收获很大,我们应该多写些类似的程序,希望能将其放在网页上,输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ:601450868  

2013-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除