- 博客(537)
- 资源 (23)
- 收藏
- 关注
原创 基因数据处理42之mango问题_seqdict.avro不存在解决
参考【1】中问题解决 问题分析:这是新版本的问题:adam0.19.1目前在maven中心仓库没有解决办法:package org.gcdss.testimport java.io.Fileimport java.nio.file.Filesimport org.apache.parquet.hadoop.metadata.CompressionCodecNameimport org.apac
2016-05-30 20:09:06 713
原创 基因数据处理40之bedtools的安装和使用
下载:编译3. 4.运行: bam变成bedhadoop@Master:~/xubo/data/snap$ bamToBed -i datatest.sorted.bam >datatest.sorted.bed5.记录:这里写代码片
2016-05-30 13:01:48 4562 2
原创 统计项目下各语言的代码量
更多代码请见:https://github.com/xubo245/AdamLearning1解释 统计项目下各语言的代码量 例子:tensorflow tensorflow 代码大概63万行2.代码: (1)代码下载git clone https://github.com/tensorflow/tensorflow(2)安装cloc: sudo apt-get install cloc(3
2016-05-30 10:58:48 3583
原创 基因数据处理39之mango安装记录
更多代码请见:https://github.com/xubo245/AdamLearning1解释 mango安装记录 mango主要是在adam上实现 可视化平台 A scalable genome browser2.代码:git clone https://github.com/bigdatagenomics/mango.gitcd mangomvn clean package -Ds
2016-05-30 10:11:57 1056
原创 linux环境下关闭后台进程
1.基本: ctrl +Z回导致正在运行的程序方法哦后台运行fg可以在前台运行bg后台2.查看进程id: 查看当前进行idjobs -l3.关闭:kill -9 pidhadoop@Master:~/xubo/tools/mango$ jobs [1]+ Stopped mvn clean package -DskipTestshadoop@Master:~
2016-05-29 19:47:20 4516
原创 基因数据处理38之dbSnpId到omimId的映射表
1.下载: 首先收到【2】,来源是【2】 【1】中有描述:You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table contains the information you need for your organisi
2016-05-29 19:39:59 897
原创 Idea中 Module is not specified错误解决
更多代码请见:https://github.com/xubo245/AdamLearning1解释 在idea中运行代码时报错:Error running ADAMVariationRDDFunctionsSuite: Module is not specified2.解决办法:In the Edit Configuration window, there should be the option
2016-05-29 18:58:32 44912 8
原创 基因数据处理37之bdg-formats编译成功
更多代码请见:https://github.com/xubo245/AdamLearning1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式,包括read、sam、vcf、databaseannotion在云平台上的格式,主要用于Adam系统中2.代码: 【2】下载 编译:mvn clean package -DskipTests3.结果:[WARNING]
2016-05-29 16:13:21 707
原创 基因数据处理36之qc-metrics安装
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics, useable for pipeline quality control purposes qc-metrics主要是用于read和变异的度量,流水线质量控制的目的2.代码:git clon
2016-05-29 13:38:55 946
原创 基因数据处理35之使用samtools和bcftools进行变异分析2--连续处理
指令:samtools mpileup -uf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058_longer.sorted.bam | bcftools call -mv > NA12878_snp_A2G_chr20_225058_longer.raw.vcfbcftools filter -s LowQual -e
2016-05-28 21:25:37 4640
原创 基因数据处理34之使用samtools和bcftools进行变异分析
1.指令: (1)samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058.sorted.bam > NA12878_snp_A2G_chr20_225058.variants或者:samtools mpileup -vf Homo_sapiens_assembly19chr20.fas
2016-05-28 21:22:21 7102 2
原创 基因数据处理33之Avocado运行记录(参考基因组)
1.数据下载: avocaodo的test resource中2.预处理: cat Homo_sapiens_assembly19.fasta | grep -i -n '>' > Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19.fasta | hea
2016-05-28 19:51:21 1116
原创 基因数据处理32之Avocado运行记录(人造数据集)
主要是需要数据正确,如果中间缺少记录,avocado一般不会成功 1.代码: Avocado修改:/** * Licensed to Big Data Genomics (BDG) under one * or more contributor license agreements. See the NOTICE file * distributed with this work
2016-05-28 19:02:45 1220
原创 Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary
Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary1.代码:package org.bdgenomics.adam.testimport java.nio.file.Filesimport org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADA
2016-05-28 18:47:54 1750
原创 基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null)
读入的read为: val fqFile = "hs38DHSE1L100F1.sam"读取结果:cleanedReads.count:1{"readNum": 0, "contig": {"contigName": "chrUn_KN707963v1_decoy", "contigLength": 62955, "contigMD5": null, "referenceURL": null, "
2016-05-28 15:50:11 1082
原创 基因数据处理30之avocado运行avocado-cli中的avocado问题1和2
问题1:avocado中的run方法中: println("stats.coverage:" + stats.coverage)调用的是: lazy val coverage = ComputingCoverage.time { ScoreCoverage(inputDataset) }然后报错:Exception in thread "main" java.lang.Unsupp
2016-05-28 15:20:28 922
原创 基因数据处理29之avocado运行snap-basic有问题
hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs2.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527NUMhs2snap /home/hadoop/xubo/data/testTools/se/snap-basic.propertiesUsing
2016-05-27 23:08:26 990
原创 基因数据处理28之avocado运行
需要注意的是如果使用avocado的命令行,fs和fq为hdfs路径,properties为本地路径:hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs1.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527 /home/hadoop/cloud/avoc
2016-05-27 22:36:53 1107
原创 基因数据处理26之bcftools安装和使用
1.下载:https://github.com/samtools/bcftools2.安装 make make install3.结合samtools使用 对排序好的bam数据用samtools生成bcf文件:xubo@xubo:~/xubo/data/testTools/se$ samtools mpileup -ugf ../hs38DH.fa hs2.sort.bam >hs2.bcf
2016-05-27 21:23:13 9684 1
原创 基因数据处理27之FastQC在linux下安装运行
FastQC是评价基因数据质量的软件。1.下载: http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc2.解压配置: unzip 配置:ln -s /path/to/FastQC/fastqc /usr/local/bin/fastqc参考【1】3.运行:xubo@xubo:~/cloud/FastQC$
2016-05-26 21:40:02 11673 2
原创 Spark中组件Mllib的学习41之保序回归(Isotonic regression)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释问题描述:给定一个无序数字序列,要求不改变每个元素的位置,但可以修改每个元素的值,修改后得到一个非递减序列,问如何使误差(该处取平方差)最小?保序回归法:从该序列的首元素往后观察,一旦出现乱序现象停止该轮观察,从该乱序元素开始逐个吸收元素组成一个序列,
2016-05-25 16:59:59 2057
原创 Spark中组件Mllib的学习40之梯度提升树(GBT)用于回归*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 GBRT(Gradient Boost Regression Tree)渐进梯度回归树 同样的setCategoricalFeaturesInfo有问题。注释掉了。2.代码:/** * @author xubo * ref
2016-05-25 16:39:45 3036
原创 Spark中组件Mllib的学习39之梯度提升树(GBT)用于分类*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释(1)GBDT基本概念 用ID3算法和C4.5算法学习得到的决策树,有可能导致模型过拟合,通常使用剪枝算法来解决。随着集成学习的发展,出现了比较典型的迭代决策树GBDT和随机森林RF,即将多棵单决策树进行模型组合,形成多决策树,可以看成
2016-05-25 16:33:45 3326
原创 Spark中组件Mllib的学习38之随机森林(使用variance)进行回归
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo
2016-05-25 15:48:26 2728 1
原创 Spark中组件Mllib的学习37之随机森林(Gini)进行分类
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest 大概思想就是生成多个决策树,都单独训练;如果来了一个数据,用各个决策树进行回归预测,如果是非连续结果,则取最多个数的值;如果连续,则取多个决策树结果的平均值。2.代码:/** * @author xubo
2016-05-25 15:44:03 2256
原创 Spark中组件Mllib的学习36之决策树(使用variance)进行回归
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo2
2016-05-25 15:26:54 1607
原创 Spark中组件Mllib的学习35之随机森林(entropy)进行分类
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245
2016-05-25 15:17:15 1993
原创 Spark中组件Mllib的学习34之决策树(使用entropy)*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释MLlib决策树支持三种不纯度的计算:gini、entropy、variance。其他的目前不支持 def fromString(name: String): Impurity = name match { case "gini" => Gin
2016-05-25 15:08:22 3737
原创 下载github项目中的某个文件夹或者文件
更多代码请见:https://github.com/xubo245/SparkLearning1.解释 有时候由于project太大或者不想下载项目的所有文件,只需要下载单个文件或者文件夹,这个时候使用git就比较麻烦了。 github下载pdf文件,使用右键链接另存为的时候下载的文件无法打开,50K左右。应该是没下载下来。 另外github听说不支持git clone某个文件或者文件夹,为的
2016-05-25 12:37:20 23894 1
原创 Spark中组件Mllib的学习33之决策树(使用Gini)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树:Decision Trees请见【4】【5】数据每次是随机划分,所以准确率每次不一定2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more c
2016-05-25 11:25:25 1216
原创 Spark中组件Mllib的学习32之朴素贝叶斯分类器(伯努利朴素贝叶斯)*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 (1) 朴素贝叶斯分类器种类 在把训练集中的每个文档向量化的过程中,存在两个模型。一个是统计词在文档中出现的次数(多项式模型);一个是统计词是否在文档中出现过(柏努利模型) 目前mllib只支持多项式朴素贝叶斯和伯努利贝叶斯(spark-1.
2016-05-25 11:03:53 2090
原创 Spark中组件Mllib的学习31之朴素贝叶斯分类器(多项式朴素贝叶斯)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1 解释 (1) 贝叶斯: 推广: (2)朴素贝叶斯:为了简化计算,朴素贝叶斯算法做了一假设:“朴素的认为各个特征相互独立”。这么一来,上式的分子就简化成了:P(C)*P(F1|C)*P(F2|C)...P(Fn|C)。这样简化过后,计算起来就方便多
2016-05-24 23:03:25 3479
原创 Spark中组件Mllib的学习30之逻辑回归LogisticRegressionWithLBFGS
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释Limited-memory BFGS (L-BFGS or LM-BFGS) Broyden–Fletcher–Goldfarb–Shanno (BFGS) algorithm =》 LBFGS :Limited-memory Broyden–
2016-05-24 22:44:31 5036 1
原创 Spark中组件Mllib的学习29之支持向量机SVM-方法2
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 spark官网第二种方法建立SVMmodel2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xu
2016-05-24 22:35:53 2665 1
原创 Spark中组件Mllib的学习28之支持向量机SVM-方法1
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM的
2016-05-24 22:33:02 2314 2
原创 Spark中组件Mllib的学习27之逻辑回归-多元逻辑回归,较大数据集,带预测准确度计算
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 但预测较多数据集,需要去计算准确度2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo
2016-05-24 22:02:08 2682
原创 Spark中组件Mllib的学习26之逻辑回归-简单数据集,带预测
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族
2016-05-24 21:59:34 7288
原创 Spark中组件Mllib的学习25之线性回归2-较大数据集(多元)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释对多组数据进行model的training,然后再利用model来predict具体的值 。过程中有输出model的权重 公式:f(x)=a1X1+a2X2+a3X3+……2.代码:package org.apache.spark.mllib
2016-05-24 17:27:06 4480
原创 Spark中组件Mllib的学习24之线性回归1-小数据集
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释 简单的对6组数据进行model的training,然后再利用model来predict具体的值 。过程中有输出model的权重 公式:f(x)=aX1+bX22.代码:/** * @author xubo * ref:
2016-05-24 17:24:52 2066
opencv 3.4.1 jar
2018-05-16
JDK.API.7_English.chm
2015-08-24
Java 2 SE 6 Documentation.chm
2015-08-24
JavaSE中文API.chm
2015-08-24
jdk api 1.7英文版-带索引
2015-08-24
isrgb.m,matlab
2014-03-27
计算方法实验Gauss_Seidel法和Runge_Kutta法
2013-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人