自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!

  • 博客(537)
  • 资源 (23)
  • 收藏
  • 关注

原创 基因数据处理42之mango问题_seqdict.avro不存在解决

参考【1】中问题解决 问题分析:这是新版本的问题:adam0.19.1目前在maven中心仓库没有解决办法:package org.gcdss.testimport java.io.Fileimport java.nio.file.Filesimport org.apache.parquet.hadoop.metadata.CompressionCodecNameimport org.apac

2016-05-30 20:09:06 713

原创 基因数据处理41之mango使用失败

这里写代码片

2016-05-30 13:30:58 1103

原创 基因数据处理40之bedtools的安装和使用

下载:编译3. 4.运行: bam变成bedhadoop@Master:~/xubo/data/snap$ bamToBed -i datatest.sorted.bam >datatest.sorted.bed5.记录:这里写代码片

2016-05-30 13:01:48 4562 2

原创 统计项目下各语言的代码量

更多代码请见:https://github.com/xubo245/AdamLearning1解释 统计项目下各语言的代码量 例子:tensorflow tensorflow 代码大概63万行2.代码: (1)代码下载git clone https://github.com/tensorflow/tensorflow(2)安装cloc: sudo apt-get install cloc(3

2016-05-30 10:58:48 3583

原创 基因数据处理39之mango安装记录

更多代码请见:https://github.com/xubo245/AdamLearning1解释 mango安装记录 mango主要是在adam上实现 可视化平台 A scalable genome browser2.代码:git clone https://github.com/bigdatagenomics/mango.gitcd mangomvn clean package -Ds

2016-05-30 10:11:57 1056

原创 linux环境下关闭后台进程

1.基本: ctrl +Z回导致正在运行的程序方法哦后台运行fg可以在前台运行bg后台2.查看进程id: 查看当前进行idjobs -l3.关闭:kill -9 pidhadoop@Master:~/xubo/tools/mango$ jobs [1]+ Stopped mvn clean package -DskipTestshadoop@Master:~

2016-05-29 19:47:20 4516

原创 基因数据处理38之dbSnpId到omimId的映射表

1.下载: 首先收到【2】,来源是【2】 【1】中有描述:You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table contains the information you need for your organisi

2016-05-29 19:39:59 897

原创 Idea中 Module is not specified错误解决

更多代码请见:https://github.com/xubo245/AdamLearning1解释 在idea中运行代码时报错:Error running ADAMVariationRDDFunctionsSuite: Module is not specified2.解决办法:In the Edit Configuration window, there should be the option

2016-05-29 18:58:32 44912 8

原创 基因数据处理37之bdg-formats编译成功

更多代码请见:https://github.com/xubo245/AdamLearning1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式,包括read、sam、vcf、databaseannotion在云平台上的格式,主要用于Adam系统中2.代码: 【2】下载 编译:mvn clean package -DskipTests3.结果:[WARNING]

2016-05-29 16:13:21 707

原创 基因数据处理36之qc-metrics安装

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics, useable for pipeline quality control purposes qc-metrics主要是用于read和变异的度量,流水线质量控制的目的2.代码:git clon

2016-05-29 13:38:55 946

原创 基因数据处理35之使用samtools和bcftools进行变异分析2--连续处理

指令:samtools mpileup -uf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058_longer.sorted.bam | bcftools call -mv > NA12878_snp_A2G_chr20_225058_longer.raw.vcfbcftools filter -s LowQual -e

2016-05-28 21:25:37 4640

原创 基因数据处理34之使用samtools和bcftools进行变异分析

1.指令: (1)samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058.sorted.bam > NA12878_snp_A2G_chr20_225058.variants或者:samtools mpileup -vf Homo_sapiens_assembly19chr20.fas

2016-05-28 21:22:21 7102 2

原创 基因数据处理33之Avocado运行记录(参考基因组)

1.数据下载: avocaodo的test resource中2.预处理: cat Homo_sapiens_assembly19.fasta | grep -i -n '>' > Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19.fasta | hea

2016-05-28 19:51:21 1116

原创 基因数据处理32之Avocado运行记录(人造数据集)

主要是需要数据正确,如果中间缺少记录,avocado一般不会成功 1.代码: Avocado修改:/** * Licensed to Big Data Genomics (BDG) under one * or more contributor license agreements. See the NOTICE file * distributed with this work

2016-05-28 19:02:45 1220

原创 Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary

Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary1.代码:package org.bdgenomics.adam.testimport java.nio.file.Filesimport org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADA

2016-05-28 18:47:54 1750

原创 基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null)

读入的read为: val fqFile = "hs38DHSE1L100F1.sam"读取结果:cleanedReads.count:1{"readNum": 0, "contig": {"contigName": "chrUn_KN707963v1_decoy", "contigLength": 62955, "contigMD5": null, "referenceURL": null, "

2016-05-28 15:50:11 1082

原创 基因数据处理30之avocado运行avocado-cli中的avocado问题1和2

问题1:avocado中的run方法中: println("stats.coverage:" + stats.coverage)调用的是: lazy val coverage = ComputingCoverage.time { ScoreCoverage(inputDataset) }然后报错:Exception in thread "main" java.lang.Unsupp

2016-05-28 15:20:28 922

原创 基因数据处理29之avocado运行snap-basic有问题

hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs2.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527NUMhs2snap /home/hadoop/xubo/data/testTools/se/snap-basic.propertiesUsing

2016-05-27 23:08:26 990

原创 基因数据处理28之avocado运行

需要注意的是如果使用avocado的命令行,fs和fq为hdfs路径,properties为本地路径:hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs1.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527 /home/hadoop/cloud/avoc

2016-05-27 22:36:53 1107

原创 基因数据处理26之bcftools安装和使用

1.下载:https://github.com/samtools/bcftools2.安装 make make install3.结合samtools使用 对排序好的bam数据用samtools生成bcf文件:xubo@xubo:~/xubo/data/testTools/se$ samtools mpileup -ugf ../hs38DH.fa hs2.sort.bam >hs2.bcf

2016-05-27 21:23:13 9684 1

原创 基因数据处理27之FastQC在linux下安装运行

FastQC是评价基因数据质量的软件。1.下载: http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc2.解压配置: unzip 配置:ln -s /path/to/FastQC/fastqc /usr/local/bin/fastqc参考【1】3.运行:xubo@xubo:~/cloud/FastQC$

2016-05-26 21:40:02 11673 2

原创 Spark中组件Mllib的学习41之保序回归(Isotonic regression)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释问题描述:给定一个无序数字序列,要求不改变每个元素的位置,但可以修改每个元素的值,修改后得到一个非递减序列,问如何使误差(该处取平方差)最小?保序回归法:从该序列的首元素往后观察,一旦出现乱序现象停止该轮观察,从该乱序元素开始逐个吸收元素组成一个序列,

2016-05-25 16:59:59 2057

原创 Spark中组件Mllib的学习40之梯度提升树(GBT)用于回归*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 GBRT(Gradient Boost Regression Tree)渐进梯度回归树 同样的setCategoricalFeaturesInfo有问题。注释掉了。2.代码:/** * @author xubo * ref

2016-05-25 16:39:45 3036

原创 Spark中组件Mllib的学习39之梯度提升树(GBT)用于分类*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释(1)GBDT基本概念 用ID3算法和C4.5算法学习得到的决策树,有可能导致模型过拟合,通常使用剪枝算法来解决。随着集成学习的发展,出现了比较典型的迭代决策树GBDT和随机森林RF,即将多棵单决策树进行模型组合,形成多决策树,可以看成

2016-05-25 16:33:45 3326

原创 Spark中组件Mllib的学习38之随机森林(使用variance)进行回归

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo

2016-05-25 15:48:26 2728 1

原创 Spark中组件Mllib的学习37之随机森林(Gini)进行分类

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest 大概思想就是生成多个决策树,都单独训练;如果来了一个数据,用各个决策树进行回归预测,如果是非连续结果,则取最多个数的值;如果连续,则取多个决策树结果的平均值。2.代码:/** * @author xubo

2016-05-25 15:44:03 2256

原创 Spark中组件Mllib的学习36之决策树(使用variance)进行回归

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo2

2016-05-25 15:26:54 1607

原创 Spark中组件Mllib的学习35之随机森林(entropy)进行分类

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245

2016-05-25 15:17:15 1993

原创 Spark中组件Mllib的学习34之决策树(使用entropy)*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释MLlib决策树支持三种不纯度的计算:gini、entropy、variance。其他的目前不支持 def fromString(name: String): Impurity = name match { case "gini" => Gin

2016-05-25 15:08:22 3737

原创 下载github项目中的某个文件夹或者文件

更多代码请见:https://github.com/xubo245/SparkLearning1.解释 有时候由于project太大或者不想下载项目的所有文件,只需要下载单个文件或者文件夹,这个时候使用git就比较麻烦了。 github下载pdf文件,使用右键链接另存为的时候下载的文件无法打开,50K左右。应该是没下载下来。 另外github听说不支持git clone某个文件或者文件夹,为的

2016-05-25 12:37:20 23894 1

原创 Spark中组件Mllib的学习33之决策树(使用Gini)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树:Decision Trees请见【4】【5】数据每次是随机划分,所以准确率每次不一定2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more c

2016-05-25 11:25:25 1216

原创 Spark中组件Mllib的学习32之朴素贝叶斯分类器(伯努利朴素贝叶斯)*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 (1) 朴素贝叶斯分类器种类 在把训练集中的每个文档向量化的过程中,存在两个模型。一个是统计词在文档中出现的次数(多项式模型);一个是统计词是否在文档中出现过(柏努利模型) 目前mllib只支持多项式朴素贝叶斯和伯努利贝叶斯(spark-1.

2016-05-25 11:03:53 2090

原创 Spark中组件Mllib的学习31之朴素贝叶斯分类器(多项式朴素贝叶斯)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1 解释 (1) 贝叶斯: 推广: (2)朴素贝叶斯:为了简化计算,朴素贝叶斯算法做了一假设:“朴素的认为各个特征相互独立”。这么一来,上式的分子就简化成了:P(C)*P(F1|C)*P(F2|C)...P(Fn|C)。这样简化过后,计算起来就方便多

2016-05-24 23:03:25 3479

原创 Spark中组件Mllib的学习30之逻辑回归LogisticRegressionWithLBFGS

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释Limited-memory BFGS (L-BFGS or LM-BFGS) Broyden–Fletcher–Goldfarb–Shanno (BFGS) algorithm =》 LBFGS :Limited-memory Broyden–

2016-05-24 22:44:31 5036 1

原创 Spark中组件Mllib的学习29之支持向量机SVM-方法2

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 spark官网第二种方法建立SVMmodel2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xu

2016-05-24 22:35:53 2665 1

原创 Spark中组件Mllib的学习28之支持向量机SVM-方法1

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM的

2016-05-24 22:33:02 2314 2

原创 Spark中组件Mllib的学习27之逻辑回归-多元逻辑回归,较大数据集,带预测准确度计算

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 但预测较多数据集,需要去计算准确度2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo

2016-05-24 22:02:08 2682

原创 Spark中组件Mllib的学习26之逻辑回归-简单数据集,带预测

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族

2016-05-24 21:59:34 7288

原创 Spark中组件Mllib的学习25之线性回归2-较大数据集(多元)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释对多组数据进行model的training,然后再利用model来predict具体的值 。过程中有输出model的权重 公式:f(x)=a1X1+a2X2+a3X3+……2.代码:package org.apache.spark.mllib

2016-05-24 17:27:06 4480

原创 Spark中组件Mllib的学习24之线性回归1-小数据集

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释 简单的对6组数据进行model的training,然后再利用model来predict具体的值 。过程中有输出model的权重 公式:f(x)=aX1+bX22.代码:/** * @author xubo * ref:

2016-05-24 17:24:52 2066

CarbonData学习资料

Apache CarbonData学习文档汇总,包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

高级Shell脚本编程

高级Shell脚本编程,高级Shell脚本编程

2016-03-15

2015年中国软件开发者白皮书

2015年中国软件开发者白皮书

2016-01-12

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz,官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT,资金流入 流出预测 冠军答辩PPT 阿里云 天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz,redis-3.0.4安装包,官网下载

2015-09-09

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范 本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

10部算法经典著作的合集

10部算法经典著作的合集

2015-08-20

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1], and A must be M-by-N-by-3. % % - If A is of class uint8 or uint16, A must be M-by-N-by-3. % % Note that a four-dimensional array that contains multiple RGB % images returns 0, not 1. % % Class Support % ------------- % A can be of class uint8, uint16, or double. If A is of % class logical it is considered not to be RGB. % % See also ISBW, ISGRAY, ISIND. % Copyright 1993-2003 The MathWorks, Inc. % $Revision: 1.15.4.2 $ $Date: 2003/08/23 05:52:55 $ wid = sprintf('Images:%s:obsoleteFunction',mfilename); str1= sprintf('%s is obsolete and may be removed in the future.',mfilename); str2 = 'See product release notes for more information.'; warning(wid,'%s\n%s',str1,str2); y = size(x,3)==3; if y if isa(x, 'logical') y = false; elseif isa(x, 'double') % At first just test a small chunk to get a possible quick negative m = size(x,1); n = size(x,2); chunk = x(1:min(m,10),1:min(n,10),:); y = (min(chunk(:))>=0 && max(chunk(:))=0 && max(x(:))<=1); end end end

2014-03-27

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波 实验要求: 第二版208页程序15 第二版208页程序20,将二阶改为四阶,求第二个 实验环境: 操作系统:Windows8 64位  编译软件:Code::Blocks 版本:10.05 位数:32位 实验提交时间:  考前 实验说明: Gauss_Seidel: 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 Runge_Kutta 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 附件: 程序15:Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图 程序20:Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图 实验心得:   通过这次实验,对Gauss_Seidel法和Runge_Kutta法了解更深,并且有了实际运行经验,而且通过编程,对方法每一步的运算数据的输入输出了解更深,总的来说收获很大,我们应该多写些类似的程序,希望能将其放在网页上,输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ:601450868  

2013-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除