Keep Learning

学习Spark、CarbonData 、Alluxio等，且为其Contributor，Github为：https://github.com/xubo245。欢迎微信联系601450868！

原创基因数据处理42之mango问题_seqdict.avro不存在解决

参考【1】中问题解决问题分析：这是新版本的问题：adam0.19.1目前在maven中心仓库没有解决办法：package org.gcdss.testimport java.io.Fileimport java.nio.file.Filesimport org.apache.parquet.hadoop.metadata.CompressionCodecNameimport org.apac

2016-05-30 20:09:06 713

原创基因数据处理40之bedtools的安装和使用

下载：编译3. 4.运行： bam变成bedhadoop@Master:~/xubo/data/snap$ bamToBed -i datatest.sorted.bam >datatest.sorted.bed5.记录：这里写代码片

2016-05-30 13:01:48 4562 2

原创统计项目下各语言的代码量

更多代码请见：https://github.com/xubo245/AdamLearning1解释统计项目下各语言的代码量例子：tensorflow tensorflow 代码大概63万行2.代码：（1）代码下载git clone https://github.com/tensorflow/tensorflow（2）安装cloc： sudo apt-get install cloc（3

2016-05-30 10:58:48 3583

原创基因数据处理39之mango安装记录

更多代码请见：https://github.com/xubo245/AdamLearning1解释 mango安装记录 mango主要是在adam上实现可视化平台 A scalable genome browser2.代码：git clone https://github.com/bigdatagenomics/mango.gitcd mangomvn clean package -Ds

2016-05-30 10:11:57 1056

原创 linux环境下关闭后台进程

1.基本： ctrl +Z回导致正在运行的程序方法哦后台运行fg可以在前台运行bg后台2.查看进程id：查看当前进行idjobs -l3.关闭：kill -9 pidhadoop@Master:~/xubo/tools/mango$ jobs [1]+ Stopped mvn clean package -DskipTestshadoop@Master:~

2016-05-29 19:47:20 4516

原创基因数据处理38之dbSnpId到omimId的映射表

1.下载：首先收到【2】，来源是【2】【1】中有描述：You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table contains the information you need for your organisi

2016-05-29 19:39:59 897

原创 Idea中 Module is not specified错误解决

更多代码请见：https://github.com/xubo245/AdamLearning1解释在idea中运行代码时报错:Error running ADAMVariationRDDFunctionsSuite: Module is not specified2.解决办法：In the Edit Configuration window, there should be the option

2016-05-29 18:58:32 44912 8

原创基因数据处理37之bdg-formats编译成功

更多代码请见：https://github.com/xubo245/AdamLearning1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式，包括read、sam、vcf、databaseannotion在云平台上的格式，主要用于Adam系统中2.代码：【2】下载编译：mvn clean package -DskipTests3.结果：[WARNING]

2016-05-29 16:13:21 707

原创基因数据处理36之qc-metrics安装

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics, useable for pipeline quality control purposes qc-metrics主要是用于read和变异的度量，流水线质量控制的目的2.代码：git clon

2016-05-29 13:38:55 946

原创基因数据处理35之使用samtools和bcftools进行变异分析2--连续处理

指令：samtools mpileup -uf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058_longer.sorted.bam | bcftools call -mv > NA12878_snp_A2G_chr20_225058_longer.raw.vcfbcftools filter -s LowQual -e

2016-05-28 21:25:37 4640

原创基因数据处理34之使用samtools和bcftools进行变异分析

1.指令：（1）samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058.sorted.bam > NA12878_snp_A2G_chr20_225058.variants或者：samtools mpileup -vf Homo_sapiens_assembly19chr20.fas

2016-05-28 21:22:21 7102 2

原创基因数据处理33之Avocado运行记录(参考基因组)

1.数据下载： avocaodo的test resource中2.预处理： cat Homo_sapiens_assembly19.fasta | grep -i -n '>' > Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19.fasta | hea

2016-05-28 19:51:21 1116

原创基因数据处理32之Avocado运行记录(人造数据集)

主要是需要数据正确，如果中间缺少记录，avocado一般不会成功 1.代码： Avocado修改：/** * Licensed to Big Data Genomics (BDG) under one * or more contributor license agreements. See the NOTICE file * distributed with this work

2016-05-28 19:02:45 1220

原创 Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary

Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary1.代码：package org.bdgenomics.adam.testimport java.nio.file.Filesimport org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADA

2016-05-28 18:47:54 1750

原创基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample（null）

读入的read为： val fqFile = "hs38DHSE1L100F1.sam"读取结果：cleanedReads.count:1{"readNum": 0, "contig": {"contigName": "chrUn_KN707963v1_decoy", "contigLength": 62955, "contigMD5": null, "referenceURL": null, "

2016-05-28 15:50:11 1082

原创基因数据处理30之avocado运行avocado-cli中的avocado问题1和2

问题1：avocado中的run方法中： println("stats.coverage:" + stats.coverage)调用的是： lazy val coverage = ComputingCoverage.time { ScoreCoverage(inputDataset) }然后报错：Exception in thread "main" java.lang.Unsupp

2016-05-28 15:20:28 922

原创基因数据处理29之avocado运行snap-basic有问题

hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs2.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527NUMhs2snap /home/hadoop/xubo/data/testTools/se/snap-basic.propertiesUsing

2016-05-27 23:08:26 990

原创基因数据处理28之avocado运行

需要注意的是如果使用avocado的命令行，fs和fq为hdfs路径，properties为本地路径：hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs1.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527 /home/hadoop/cloud/avoc

2016-05-27 22:36:53 1107

原创基因数据处理26之bcftools安装和使用

1.下载：https://github.com/samtools/bcftools2.安装 make make install3.结合samtools使用对排序好的bam数据用samtools生成bcf文件：xubo@xubo:~/xubo/data/testTools/se$ samtools mpileup -ugf ../hs38DH.fa hs2.sort.bam >hs2.bcf

2016-05-27 21:23:13 9684 1

原创基因数据处理27之FastQC在linux下安装运行

FastQC是评价基因数据质量的软件。1.下载： http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc2.解压配置： unzip 配置：ln -s /path/to/FastQC/fastqc /usr/local/bin/fastqc参考【1】3.运行：xubo@xubo:~/cloud/FastQC$

2016-05-26 21:40:02 11673 2

原创 Spark中组件Mllib的学习41之保序回归（Isotonic regression）

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释问题描述：给定一个无序数字序列，要求不改变每个元素的位置，但可以修改每个元素的值，修改后得到一个非递减序列，问如何使误差（该处取平方差）最小？保序回归法：从该序列的首元素往后观察，一旦出现乱序现象停止该轮观察，从该乱序元素开始逐个吸收元素组成一个序列，

2016-05-25 16:59:59 2057

原创 Spark中组件Mllib的学习40之梯度提升树（GBT）用于回归*

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 GBRT（Gradient Boost Regression Tree）渐进梯度回归树同样的setCategoricalFeaturesInfo有问题。注释掉了。2.代码：/** * @author xubo * ref

2016-05-25 16:39:45 3036

原创 Spark中组件Mllib的学习39之梯度提升树（GBT）用于分类*

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释（1）GBDT基本概念用ID3算法和C4.5算法学习得到的决策树，有可能导致模型过拟合，通常使用剪枝算法来解决。随着集成学习的发展，出现了比较典型的迭代决策树GBDT和随机森林RF，即将多棵单决策树进行模型组合，形成多决策树，可以看成

2016-05-25 16:33:45 3326

原创 Spark中组件Mllib的学习38之随机森林（使用variance）进行回归

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释随机森林（使用variance）进行回归2.代码：/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo

2016-05-25 15:48:26 2728 1

原创 Spark中组件Mllib的学习37之随机森林（Gini）进行分类

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释随机森林：RandomForest 大概思想就是生成多个决策树，都单独训练；如果来了一个数据，用各个决策树进行回归预测，如果是非连续结果，则取最多个数的值；如果连续，则取多个决策树结果的平均值。2.代码：/** * @author xubo

2016-05-25 15:44:03 2256

原创 Spark中组件Mllib的学习36之决策树（使用variance）进行回归

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释决策树（使用variance）进行回归2.代码：/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo2

2016-05-25 15:26:54 1607

原创 Spark中组件Mllib的学习35之随机森林（entropy）进行分类

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释随机森林：RandomForest2.代码：/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245

2016-05-25 15:17:15 1993

原创 Spark中组件Mllib的学习34之决策树（使用entropy）*

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释MLlib决策树支持三种不纯度的计算：gini、entropy、variance。其他的目前不支持 def fromString(name: String): Impurity = name match { case "gini" => Gin

2016-05-25 15:08:22 3737

原创下载github项目中的某个文件夹或者文件

更多代码请见：https://github.com/xubo245/SparkLearning1.解释有时候由于project太大或者不想下载项目的所有文件，只需要下载单个文件或者文件夹，这个时候使用git就比较麻烦了。 github下载pdf文件，使用右键链接另存为的时候下载的文件无法打开，50K左右。应该是没下载下来。另外github听说不支持git clone某个文件或者文件夹，为的

2016-05-25 12:37:20 23894 1

原创 Spark中组件Mllib的学习33之决策树（使用Gini）

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释决策树：Decision Trees请见【4】【5】数据每次是随机划分，所以准确率每次不一定2.代码：/** * @author xubo * ref:Spark MlLib机器学习实战 * more c

2016-05-25 11:25:25 1216

原创 Spark中组件Mllib的学习32之朴素贝叶斯分类器（伯努利朴素贝叶斯）*

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释（1）朴素贝叶斯分类器种类在把训练集中的每个文档向量化的过程中，存在两个模型。一个是统计词在文档中出现的次数（多项式模型）;一个是统计词是否在文档中出现过（柏努利模型）目前mllib只支持多项式朴素贝叶斯和伯努利贝叶斯（spark-1.

2016-05-25 11:03:53 2090

原创 Spark中组件Mllib的学习31之朴素贝叶斯分类器（多项式朴素贝叶斯）

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1 解释（1）贝叶斯：推广：（2）朴素贝叶斯：为了简化计算，朴素贝叶斯算法做了一假设：“朴素的认为各个特征相互独立”。这么一来，上式的分子就简化成了：P(C)*P(F1|C)*P(F2|C)...P(Fn|C)。这样简化过后，计算起来就方便多

2016-05-24 23:03:25 3479

原创 Spark中组件Mllib的学习30之逻辑回归LogisticRegressionWithLBFGS

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释Limited-memory BFGS (L-BFGS or LM-BFGS) Broyden–Fletcher–Goldfarb–Shanno (BFGS) algorithm =》 LBFGS ：Limited-memory Broyden–

2016-05-24 22:44:31 5036 1

原创 Spark中组件Mllib的学习29之支持向量机SVM-方法2

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 spark官网第二种方法建立SVMmodel2.代码：/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xu

2016-05-24 22:35:53 2665 1

原创 Spark中组件Mllib的学习28之支持向量机SVM-方法1

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释支持向量机(Support Vector Machine，SVM)是Corinna Cortes和Vapnik等于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。SVM的

2016-05-24 22:33:02 2314 2

原创 Spark中组件Mllib的学习27之逻辑回归-多元逻辑回归，较大数据集，带预测准确度计算

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释但预测较多数据集，需要去计算准确度2.代码：/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo

2016-05-24 22:02:08 2682

原创 Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释什么是逻辑回归？Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。这一家族

2016-05-24 21:59:34 7288

原创 Spark中组件Mllib的学习25之线性回归2-较大数据集（多元）

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释对多组数据进行model的training,然后再利用model来predict具体的值。过程中有输出model的权重公式：f(x)=a1X1+a2X2+a3X3+……2.代码：package org.apache.spark.mllib

2016-05-24 17:27:06 4480

原创 Spark中组件Mllib的学习24之线性回归1-小数据集

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释简单的对6组数据进行model的training,然后再利用model来predict具体的值。过程中有输出model的权重公式：f(x)=aX1+bX22.代码：/** * @author xubo * ref:

2016-05-24 17:24:52 2066

CarbonData学习资料

Apache CarbonData学习文档汇总，包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

高级Shell脚本编程

高级Shell脚本编程,高级Shell脚本编程

2016-03-15

2015年中国软件开发者白皮书

2016-01-12

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz，官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT，资金流入流出预测冠军答辩PPT 阿里云天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz，redis-3.0.4安装包，官网下载

2015-09-09

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

10部算法经典著作的合集

2015-08-20

百度人搜，阿里巴巴，腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1], and A must be M-by-N-by-3. % % - If A is of class uint8 or uint16, A must be M-by-N-by-3. % % Note that a four-dimensional array that contains multiple RGB % images returns 0, not 1. % % Class Support % ------------- % A can be of class uint8, uint16, or double. If A is of % class logical it is considered not to be RGB. % % See also ISBW, ISGRAY, ISIND. % Copyright 1993-2003 The MathWorks, Inc. % $Revision: 1.15.4.2 $ $Date: 2003/08/23 05:52:55 $ wid = sprintf('Images:%s:obsoleteFunction',mfilename); str1= sprintf('%s is obsolete and may be removed in the future.',mfilename); str2 = 'See product release notes for more information.'; warning(wid,'%s\n%s',str1,str2); y = size(x,3)==3; if y if isa(x, 'logical') y = false; elseif isa(x, 'double') % At first just test a small chunk to get a possible quick negative m = size(x,1); n = size(x,2); chunk = x(1:min(m,10),1:min(n,10),:); y = (min(chunk(:))>=0 && max(chunk(:))=0 && max(x(:))<=1); end end end

2014-03-27

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波实验要求：第二版208页程序15 第二版208页程序20，将二阶改为四阶，求第二个实验环境：操作系统：Windows8 64位　编译软件:Code::Blocks 版本：10.05 位数：32位实验提交时间：　考前实验说明： Gauss_Seidel：左侧为数据文档，为了方便多次测试，可将txt文档中数据复制到exe中运行，输入规范请见上图上图为正确输出之一 Runge_Kutta 左侧为数据文档，为了方便多次测试，可将txt文档中数据复制到exe中运行，输入规范请见上图上图为正确输出之一附件：程序15：Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图程序20：Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图实验心得：　　通过这次实验，对Gauss_Seidel法和Runge_Kutta法了解更深，并且有了实际运行经验，而且通过编程，对方法每一步的运算数据的输入输出了解更深，总的来说收获很大，我们应该多写些类似的程序，希望能将其放在网页上，输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ：601450868　　

2013-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人