Keep Learning

学习Spark、CarbonData 、Alluxio等，且为其Contributor，Github为：https://github.com/xubo245。欢迎微信联系601450868！

12月 11月 07月 06月 05月 04月 03月 02月 01月

原创 Adam学习13之Fasta/Fastq/SAM/BAM文件格式数据读取

0.代码（读取方法）：package org.bdgenomics.adamLocal.algorithms.testimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.bdgenomics.adam.

2016-04-30 22:33:19 5702

原创 SAM数据格式学习3之官方文档

SAM数据格式学习3之官方文档http://samtools.github.io/hts-specs/SAMv1.pdf其他详细格式：https://github.com/samtools/hts-specs里面很详细

2016-04-29 22:06:45 809

原创 SAM数据格式学习2之FLAG理解

SAM格式：1.FLAG说明： Each bit in the FLAG field is defined as:0x0001 p the read is paired in sequencing0x0002 P the read is mapped in a proper pair0x0004 u the query sequence itself is unmap

2016-04-29 17:25:02 5585

原创 SAM数据格式学习1之CIGAR理解

SAM信息中的一条：SRR003161.2 0 chr7 41381016 60 4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S * 0 0 TCAGTTTGAGATGGAGTTTCATTCTTGTTGCCCAGGCTGGAGTGCAATGGCGCAATCTCAGCTCACAGCAACCTCCGCCTCCCGGGTTCAAGCGATTCTCCTGCCTCAGCC

2016-04-29 17:12:38 13555 6

原创 Spark中组件Mllib的学习2之MovieLensALS学习（集群run-eaxmples运行）

1.将spark下的data文件夹上传到hdfs目录2.运行：hadoop@Master:~/cloud/spark-1.5.2$ ./bin/run-example mllib.MovieLensALS --rank 5 --numIterations 20 --lambda 1.0 --kryo /xubo/spark/data/mllib/sample_movielens

2016-04-27 20:22:35 1906

原创 Spark组件之Spark Streaming学习5--WindowsWordCount学习

更多代码请见：https://github.com/xubo245/SparkLearning1.理解WindowsWordCount是滑动窗口技术的应用，是统计多个窗口，在滑动。可以用于统计最近30秒或者最近一个小时的信息，单个batch还可以保留为1秒，然后每隔10秒或者半个小时的滑动进行统计2.运行：输入：hadoop@Mast

2016-04-26 22:25:54 638

原创 Spark组件之Spark Streaming学习4--HdfsWordCount 学习

1.理解：HdfsWordCount 是从hdfs的文件读入流文件，即制定文件目录，每个一段时间扫描该路径下的文件，不扫描子目录下的文件。如果有新增加的文件，则进行流计算 val ssc = new StreamingContext(sparkConf, Seconds(2))处理跟前面差不多2.运行：输入：hadoop@Master:~/cloud/testB

2016-04-26 21:36:29 1620

原创 Spark组件之Spark Streaming学习3--结合SparkSQL的使用(wordCount)

1.通过建立一个对象来获取Streaming的单例对象 val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext) import sqlContext.implicits._object SQLContextSingleton { @transient private var instance

2016-04-26 17:26:39 2907

原创 Spark组件之Spark Streaming学习2--StatefulNetworkWordCount 学习

运行方法类似：http://blog.csdn.net/xubo245/article/details/512519701.理解StatefulNetworkWordCount 与NetworkWordCount不同的是会进行state标记，然后wordCount是累计，而不是只求一个batch累计的实现是：updateStateByKey，里面有调用newUpdateFunc函数：

2016-04-26 17:19:48 1468

原创 Spark组件之Spark Streaming学习1--NetworkWordCount学习

NetworkWordCount：每个1秒将接收的数据进行wordCount，不累加使用1.方法1：在集群的examples中启动一个terminal：./bin/run-example streaming.NetworkWordCount localhost 9999另外一个terminal：nc -lk 9999可以在这个terminal发送数据，前面一

2016-04-26 17:08:15 1318

原创 GitLab安装并设置为开机启动

gitlab安装步骤1.下载：地址：https://bitnami.com/stack/gitlab/installer下载的版本为：bitnami-gitlab-8.5.7-0-linux-x64-installer.run2.安装：sudo chmod 777 bitnami-gitlab-8.5.7-0-linux-x64-installer.runsud

2016-04-25 17:47:17 15761

原创基因数据处理25之avocado安装

基因数据处理25之avocado安装下载：git clone https://github.com/bigdatagenomics/avocado.git安装第一次失败，第二次成功hadoop@Master:~/cloud/adam/xubo/code/avocado$ mvn install[INFO] Scanning for projects

2016-04-23 02:26:27 7387

原创基因数据处理24之BWASW算法ref分块建立索引然后比对（ref切分为四段，read为25000条，4线程）

比默认的要块1倍左右1[M::bwa_idx_load_from_disk] read 0 ALT contigs[bsw2_aln] read 25000 sequences/pairs (14470082 bp) ...[main] Version: 0.7.13-r1126[main] CMD: bwa bwasw -t 4 GRCH38chr1L3556522.fna SRR0

2016-04-22 19:07:25 2315

原创基因数据处理23之BWASW算法ref分块建立索引然后比对（ref切分为四段，read为25000条）

结论：read为25000条对单条染色体进行比对需要110秒左右，对chr1-4比对需要160秒左右运行结果：1[M::bwa_idx_load_from_disk] read 0 ALT contigs[bsw2_aln] read 17040 sequences/pairs (10000385 bp) ...[bsw2_aln] read 7960 sequences/pai

2016-04-22 18:13:57 1548

原创基因数据处理22之对GRCH38全基因建立BWA索引

环境：ubuntu 14.04内存 6Gbwa 0.7.12结论：建立索引大概4500秒左右节点2运行：hadoop@Mcnode2:~/cloud/adam/xubo/data/test20160422$ cp ../test20160310/GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_an

2016-04-22 17:36:47 4044

原创基因数据处理21之BWASW算法ref分块建立索引然后比对（ref切分为四段，read为250条）

1.时间分析对ref为单条染色体进行比对，第一次比对在3-5s不等，对chr1-4比对，在20s左右连续比对多次后，对单染色体比对降到1s左右，chr1-4降到2s左右不懂为什么比一次比对时间比较长，后面几次比对时间变短运行代码：hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L35

2016-04-22 16:46:40 1594

原创基因数据处理20之BWASW算法ref分块建立索引然后比对

SRR003161h20.fastq 三次测试：hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L3556522.fna SRR003161h20.fastq >SRR003161h20BWASWchr1.sam[M::bwa_idx_load_from_disk] read 0 ALT contigs

2016-04-22 16:24:31 1912

原创 Adam学习12之loadFasta中的Fragment参数配置

1.fragment 为10000：val fq1 = ac.loadFasta(file1, 10000)：hadoop@Master:~/cloud/testByXubo/spark/GRCH38$ ./cluster.sh fq0.count:45850077

2016-04-21 16:30:12 3006

原创 Spark组件之SparkR学习5--R语言函数调用（跨文件调用）

环境：RStudioR-3.2.1Spark组件之SparkR学习5--R语言函数调用（跨文件调用）1.在文件夹func下新建R文件addTest.R: 文件路径：D:/all/R/RStudio/Rtianchi/R/func/addTest.RD:/all/R/RStudio/Rtianchi/为project目录代码：print("addTes

2016-04-21 02:05:09 2671

原创 Spark组件之SparkR学习4--Eclipse下R语言环境搭建

1.下载R地址：eclipse下http://download.walware.de/eclipse-4.3/Learning R这本书上第5页有讲从http://www.walware.de/goto/statet下载，但是没试成功，不确定是否可行继续。。。

2016-04-20 13:12:34 3407

原创 Spark组件之SparkR学习3--使用spark-submit向集群提交R代码文件data-manipulation.R

1.数据准备：1.1 下载数据文件wget http://s3-us-west-2.amazonaws.com/sparkr-data/flights.csv1.2 上传到hdfs： hadoop fs -put flights.csv ./2.运行2.1 默认本地运行：spark-submit --packages com.databricks:spark-cs

2016-04-20 13:00:07 3872

原创 Spark组件之SparkR学习2--使用spark-submit向集群提交R代码文件dataframe.R

环境：spark1.5.2，R-3.2.11.examples1 dataframe.R 1.1 文件来源：参考【1】./bin/spark-submit examples/src/main/r/dataframe.R中代码运行有问题：hadoop@Master:~/cloud/testByXubo/spark/R$ spark-submit dataframe.R

2016-04-20 12:32:27 3207

原创 Spark组件之SparkR学习1--安装与测试

环境：ubuntu：Spark 1.5.2（已装）、R3.2.1Window： Rstudio1.R安装：Spark安装后直接启动SparkR会报错，R找不到，故需要装R（1）R下载：https://cran.r-project.org/src/base/R-3/或者：https://cran.rstudio.com/src/base/R-3/（

2016-04-19 23:55:56 4570 2

原创 Spark生态之Spark-csv学习1之安装和简单的examples

1.安装：（1） Spark-shell：$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0直接运行就进入了shell（2）eclipse的project：可以从（1）中安装的三个jar包导入到project中，jar在/home/hadoop/.ivy2中

2016-04-19 00:15:52 4400

原创 Adam学习11之Adam2.10-0.19搭建问题解决

Adam学习11之Adam2.10-0.19搭建问题解决From：https://github.com/bigdatagenomics/adam/issues/1001install by mvn clean package -DskipTestserror：[INFO] [INFO] ADAM_2.10 ...............................

2016-04-18 10:27:31 4672

原创 Spark疑问2之spark 丢了executor会恢复吗？

Spark疑问2之spark 丢了executor会恢复吗 Lost executorhadoop@Master:~/cloud/testByXubo/spark/GRCH38/test2$ ./cluster.sh fq0.count:45850077 Met

2016-04-17 15:33:35 3816

原创 Spark疑问1之如何查看sparkContext没有关闭的sc

Spark疑问1之如何查看sparkContext没有关闭的在跑完spark程序后有时会忘记执行sc.stophadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887

2016-04-17 15:30:07 8465 1

原创 Adam学习10之集群节点的内存对运行时间的影响

问题：将单节点的内存从512M加到4096M时运行时间不减少反而增加，不解，待解决。是不是单个测试用例的偶然性？hadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887

2016-04-17 14:50:57 846

原创 Adam学习9之对GRCH38的fna文件进行统计操作

第三种方法和第二种方法可以顺利执行，统计出来GRCH38（GCA_000001405.15_GRCh38_full_analysis_set.fna）的信息：fq0.count:45850077 Method 3=> Length:321202 sum3:3.209457

2016-04-17 14:28:37 3517

原创基因数据处理19之BWA匹配算法串产生、匹配、评价等整体流程

环境：ubunutBWAsamtoolswgsimbwa.kit工具1.数据下载：需要在bwa.kit下bwa.kit/run-gen-ref hs38DH 2.串产生：hadoop@Mcnode1:~/cloud/adam/xubo/data/hs38DH$ wgsim -N 1000 -1 10 hs38DH.fa hs38DHSE1N10000L

2016-04-15 19:41:25 3077 2

原创基因数据处理18之基因序列生成工具wgsim安装和使用

1.下载：https://github.com/lh3/wgsim可以git或者zip2.安装：gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm3.数据下载：可以使用bwakit下载：https://github.com/lh3/bwa/tree/master/bwakit下载：bwa.kit/run-gen-r

2016-04-15 17:12:57 3790 1

原创 Spark组件之SparkSQL学习1之问题报错No TypeTag available for Person

/** * @author xubo * spark 1.5.2 * * reference :http://spark.apache.org/docs/1.5.2/sql-programming-guide.html */运行Inferring the Schema Using Reflection时报错：代码：// sc is an existing SparkC

2016-04-14 17:20:16 3701

原创 eclipse中安装并编译C/C++

1.下载安装CDThttp://www.eclipse.org/cdt/downloads.php查找地址：http://download.eclipse.org/tools/cdt/releases/kepler在eclipse 中的help中install new software输入并建立：2.安装MinGW并配置环境变量http://www.mingw.or

2016-04-08 12:33:22 844

CarbonData学习资料

Apache CarbonData学习文档汇总，包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz，官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT，资金流入流出预测冠军答辩PPT 阿里云天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz，redis-3.0.4安装包，官网下载

2015-09-09

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

10部算法经典著作的合集

2015-08-20

百度人搜，阿里巴巴，腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1], and A must be M-by-N-by-3. % % - If A is of class uint8 or uint16, A must be M-by-N-by-3. % % Note that a four-dimensional array that contains multiple RGB % images returns 0, not 1. % % Class Support % ------------- % A can be of class uint8, uint16, or double. If A is of % class logical it is considered not to be RGB. % % See also ISBW, ISGRAY, ISIND. % Copyright 1993-2003 The MathWorks, Inc. % $Revision: 1.15.4.2 $ $Date: 2003/08/23 05:52:55 $ wid = sprintf('Images:%s:obsoleteFunction',mfilename); str1= sprintf('%s is obsolete and may be removed in the future.',mfilename); str2 = 'See product release notes for more information.'; warning(wid,'%s\n%s',str1,str2); y = size(x,3)==3; if y if isa(x, 'logical') y = false; elseif isa(x, 'double') % At first just test a small chunk to get a possible quick negative m = size(x,1); n = size(x,2); chunk = x(1:min(m,10),1:min(n,10),:); y = (min(chunk(:))>=0 && max(chunk(:))=0 && max(x(:))<=1); end end end

2014-03-27

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波实验要求：第二版208页程序15 第二版208页程序20，将二阶改为四阶，求第二个实验环境：操作系统：Windows8 64位　编译软件:Code::Blocks 版本：10.05 位数：32位实验提交时间：　考前实验说明： Gauss_Seidel：左侧为数据文档，为了方便多次测试，可将txt文档中数据复制到exe中运行，输入规范请见上图上图为正确输出之一 Runge_Kutta 左侧为数据文档，为了方便多次测试，可将txt文档中数据复制到exe中运行，输入规范请见上图上图为正确输出之一附件：程序15：Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图程序20：Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图实验心得：　　通过这次实验，对Gauss_Seidel法和Runge_Kutta法了解更深，并且有了实际运行经验，而且通过编程，对方法每一步的运算数据的输入输出了解更深，总的来说收获很大，我们应该多写些类似的程序，希望能将其放在网页上，输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ：601450868　　

2013-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

CarbonData学习资料

opencv 3.4.1 jar

高级Shell脚本编程

2015年中国软件开发者白皮书

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz

资金流入流出预测大赛冠军答辩PPT

redis-3.0.4安装包

JDK.API.7_English.chm

Java 2 SE 6 Documentation.chm

JavaSE中文API.chm

jdk api 1.7英文版-带索引

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

10部算法经典著作的合集

百度人搜，阿里巴巴，腾讯华为小米搜狗笔试面试八十题.pdf

色彩空间转换matlab

isrgb.m,matlab

C语言头函数包include

计算方法实验Gauss_Seidel法和Runge_Kutta法

空空如也