自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 RNA-Seq HISAT+ HTSeq + DESeq2流程 及测序深度和质控问题讨论

数据基于BGISEQ500 SE50 clean data约1.XG,20+M reads。SE50 20M是否够?对基因定量足够。理由:1,测序饱和度(随reads数增加,检测到的基因数随之上升。但当测序量达到一定区间后,基因数变化不明显)。 2,如果要检测isoform等信息,需要PE150或PE100(6G数据),但仅仅定量SE50 20M已经够了。1,FastQC质控FastQC -t 2 XX.fq.gz’per base sequence content’几乎每个样本前15碱基

2020-06-09 11:13:31 1986

原创 决策树学习

基于iris data画决策树的决策面For each pair of iris features, the decision tree learns decision boundaries made of combinations of simple thresholding rules inferred from the training samples. 选取一对特征,决策树会得到一系列...

2019-07-11 20:20:45 257

原创 sklearn logistic regression学习

1. linear regressionlinear_model.LinearRegression()print(__doc__)# Code source: Jaques Grobler# License: BSD 3 clauseimport matplotlib.pyplot as pltimport numpy as npfrom sklearn import d...

2019-07-04 14:51:33 962

原创 mysql action

task10mysql> create table if not exists Trips ( -> Id int not null primary key, -> Client_Id int not null, -> Driver_Id int not null, -> City_Id int not null, ->...

2019-05-21 22:32:04 474

原创 MySQL实战

task7mysql> create table if not exists Employee ( -> Id int not null primary key, -> Name VARCHAR(50) not null, -> Salary int not null, -> DepartmentId int not null ...

2019-05-18 22:23:42 384

原创 MySQL表操作+表联结

task3:超过5名学生的课创建如下所示的courses 表 ,有: student (学生) 和 class (课程)。编写一个 SQL 查询,列出所有超过或等于5名学生的课。应该输出:±--------+ | class | ±--------+ | Math | ±--------+Note:学生在每个课中不应被重复计算。mysql> use yiibaid...

2019-05-16 19:32:03 177

原创 mysql入门(安装+查询语句)

mysql安装在centos7下有root权限安装,主要参考这里.wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum updateyum install mysql-server#设置权限cho...

2019-05-12 21:34:24 310

转载 RVAS(rare variant association study)知识

多基因罕见疾病常用到RVAS(rare variant association study),这里对学习的内容做一个整理。不断补充。RVAS是个什么鬼?居然将替代GWAS摘自周在威老师的微信公众号 基因检测与解读1,GWAS方法通过基因芯片技术系统地评估常见遗传变异(通常是SNP,在人群中的频率MAF大于5%)对疾病的影响,到目前为止,已经有2000多个SNP发现与疾病相关。2,只能...

2019-04-19 11:14:01 1471

原创 临床测序(WES, WGS)分析流程(二)新发突变

task1 从trios找新发突变该例子基于trio.vcf,含有3个样本(mom, dad, son)。java -Xmx5g -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V trio.vcf -sn son -env -o son.vcfjava -Xmx5g -jar GenomeAnalysis...

2018-10-10 16:38:09 4390 5

原创 临床测序(WES, WGS)分析流程(一)基本流程+过滤

从指控->比对->BAM处理->call突变->合并gvcf都可参考我之前的GATK Germline Best Practivce假设目前得到VCF test1.vcf(包含4个样本,其中一个为CJ-258)Task1 提取CJ-258特有的突变 :java -Xmx15g -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta ...

2018-09-27 20:58:45 8631

翻译 PLINK/SEQ association test

PLINK/seq可以检测表型-表型之间的相关性,用permutation或者asymptotic statistics。可以基于单变异,基因,也可以基于gene sets。single variant association检测一个变异和疾病(dichotomous outcome)的相关性:pseq proj v-assoc --phenotype my.phenotype当对于...

2018-09-21 12:09:55 1690

原创 PCA原理 statQuest

PCA concepts:PCA把所有细胞间(如果用基因表达来展示)的correlations在2-D图里表示。 PC1的差别远比PC2(PC3,PC4…)要大。 在这个例子中,倘若兰红距离和黄红距离一样,那么黄红之间的差别要比兰黄之间的差别大的多。PCA是dimension reduction中的一种,包括heatmap, t-SNE, Multi-Dimensional Sca...

2018-09-15 22:09:38 1382

原创 LDA原理 statQuest

在某些例子中,比如一个药物对哪些病人有效,哪些无效,我们可以尝试依据病人的基因表达来区分。我们可以选取一个或多个基因,但目的是要选取那些可以最大化提升区分这两组病人能力的基因。和PCA类似,但是PCA目的是提取variation最大的基因。LDA is like PCA, but it focuses on maxmizing seperatibility among known catego...

2018-09-13 16:20:45 282

原创 Pandas基本操作

Pandas基本操作import pandas as pdimport numpy as npSeries类似一位数组的用法>>> a=pd.Series(['a',1,'e',2,np.nan,66])>>> a0 a1 12 e3 24 NaN5 66dtype: obj...

2018-08-16 17:16:01 215

翻译 PLINKSEQ教程1

PLINK/SEQ教程1学习PLINK/SEQ,基于一个toy VCF dataset。使用帮助:pseq helppseq help stats #pseq help {command}PSEQ 使用:pseq input-source command {--argument} #input-source指定VCF文件或者一个PLINK/Seq proje...

2018-08-13 16:37:04 1009

原创 ChIP-seq流程(MACS2 histone peaks)

ChIP-seq(流程)1,质量控制基于FastQC和Trimmomatic:fastqc -t 5 input.fastq.gzjava -jar ~/tools/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar SE -threads 12 -phred33 -trimlog BSY-trim.log ENCFF000BS...

2018-08-08 14:24:12 3952

原创 python3 numpy学习

1.1,numpy & pandas有什么用?教程链接 numpy基于C,pandas基于numpy。基于矩阵的运算,运算速度比python自带list或者dictionary的更快。1.2,安装 pip3 install numpy #3指向python3 pip3 install pandas2.1, numpy属性>>> arr...

2018-08-03 07:06:04 1267

翻译 linux重定向

在Linux里,任何东西都是一个文件。 eg. ls 是把结果输出到一个特殊的文件称为standard output (stdout),错误结果到standard error (stderr)。标准输入和标准错误都链接到屏幕,不保存到磁盘。 > 保存输出结果到文件。 若输出结果不存在,则> 导出空文件。 程序不把它 的错误信息输送到标准输出。 而,像许多写得不错...

2018-07-27 07:57:02 189

原创 ln 创建连接

ln有硬链接和符号链接。ln file link #硬链接ln -s item link #软链接,item可以是文件也可以是目录。1,硬链接 hard links 每个文件都有一个硬链接,这个硬链接给文件起名字。当我们创建一个硬链接以后, 就为文件创建了一个额外的目录条目。 局限性: 1,不能关联文件系统之外的文件。 2,不能关联目录。...

2018-07-25 07:35:50 300

原创 linux命令 For循环

要设定特定的循环列表,可以由文件导入,也可以由{} 导入。 比如要统计每个BAM文件里的reads数目,用for 循环可以如下:for i in H3K4me1_{0,1,4,12}hour.bam;do echo $i; samtools view -c $i ;done对从文件中提取:for i in ${cat file.txt};do echo $i;done对等...

2018-07-24 20:32:27 33136

翻译 VCFtools学习

下载VCFtools用来处理VCF文档。可以1,筛选特定突变 2,比较文件 3,总结突变 4,转化文件格式 5,验证并合并文件 6,取突变交集和差集Get basic file statisticsinput可以为VCF或BCF格式(--vcf --gvcf or --bcf)。vcftools --vcf cohort.intersect.vcforzcat...

2018-06-18 14:47:58 9323 2

翻译 WDL学习

最近想把GATK流程化,方便后续工作。看到WDL+Cromwell的方法还是比较方便的。而且后续GATK出来的best practice也是按照WDL写的。就相当于是学习了。这里记录3个用的可能比较多的例子,具体的可见官网。case2. 编写一个多步骤(multi-step)流程例子数据下载 这个任务是要分开从haplotypeCaller得到的SNP和indel。...

2018-04-13 09:39:35 3034

原创 使用WDL执行GATK HaplotypeCaller教程

Introduction这里的workflow叫做helloHaplotypeCaller;包含一个单任务即是GATK’s HaplotypeCaller。这个task输入一个file inputBAM,输入一个file rawVCF。Workflow 在workflow里,我们会执行task并指定task的执行顺序。 workflow helloHaplotypeCaller ...

2018-03-22 10:33:46 2703

原创 GATK Cromwell +WDL学习

WDL (一个workflow description language)+ Cromwell(an execution engine that can run WDL scripts)是目前可以更好使用GATK的一套工具。这里学习wdl的快速入门教程。WDLBase structureTop-level components: workflow, task and call ...

2018-03-20 19:56:26 4972

原创 RNA-seq分析(Fastqc+Trimmomatic+STAR+HTseq-count+DESeq2)

最近做RNA-seq,正好把流程整理下,也希望分享和相互学习。 具体将以Fastqc + Trimmomatic + STAR + HTseq-count + DEseq2的流程来进行。预处理FastQC + Trimmomaticfastqc -t 5 sample_R1.fq.gzfastqc -t 5 sample_R2.fq.gzjava -jar ~/

2018-01-22 19:57:12 13261 5

原创 GATK Germline Best Practice学习

数据是sporadic的慢病case-control的组合。想用GATK germline best practice的方法进行突变的分析。这里主要参考GATK Germline best practice的教程。1 这里用的是GATK3.7的版本,目前已经出到GATK3.8。最近4.0也发布了。 部分步骤后续补完。。。...

2018-01-20 21:01:41 7194

原创 R作图 图形设备不支持 tiff

在用R做venn diagram的时候,报错不支持tiff...具体报错忘记了。想重装tiff包,未果,报错"had non-zero exit status".发现jpeg,png,titt等作图格式都不支持。> capabilities() jpeg png tiff tcltk X11 aqua http/ftp socke

2016-03-29 22:32:14 2257

转载 CentOS常用查看系统命令

CentOS常用到的查看系统命令CentOS常用到的查看系统命令# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue   # 查看操作系统版本# cat /proc/cpuinfo      # 查看CPU信息# hostname               # 查看计算机名# lspci -tv    

2016-01-20 17:49:18 347

原创 Centos下:/usr/bin/ld: cannot find -lXext

最近刚开始用centos,各种操作都在逐步摸索。在安装ghostscript的时候,报错:/usr/bin/ld: cannot find -lXext首先库命名方式为:lib+XXX+.so , 其中XXX表示函式库的名称。根据网上许多类似问题的总结,基本为3步:1,系统中是否有对应的lib。 2,lib版本是否正确 3,是否连接到正确的函式库文件(.so)在我这个问题中

2016-01-19 09:34:37 2014

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除