自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 linux 下的${i%%.*}

最近看大佬写的流程,发现这个用法也用的多,自己实践了下它的用法,才知道是什么意思i=sftr.realgn.bamecho ${i%%.*}sftrn=123,234,68echo ${n%%,*}123原来是提取第一个.前面的内容...

2019-04-29 22:09:56 5026 1

原创 WES流程-系列一

目前分析WES/WGS的软件已经很多了,这次主要写GATK,和samtools mpileup 和bcftools call 流程。1,需要安装的软件trimmomatic,bwa,samtools,gatk bcftools ,vcftools,snpeff,multiqc,qualimap 等2.数据库的下载...

2019-04-29 16:08:43 1029

原创 xargs的用法

最近看很多脚本有用xargs,只是大概知道是做什么的,自己没用过,特别学习一下。xargs 可以读入 stdin 的资料,并且以空白字元或断行字元作为分辨,将 stdin 的资料分隔成为 arguments 。 因为是以空白字元作为分隔,所以,如果有一些档名或者是其他意义的名词内含有空白字元的时候, xargs 可能就会误判了,如果需要处理特殊字符,需要使用-0参数进行处理。1.-0 :当...

2019-04-29 14:29:22 432

原创 NIPTeR包分析 NIPT

前段时间一直纠结于,用NIPTeR包分析·NIPT数据时,报错的问题,后面知道是从NCBI下载的数据不适用于这个包,其实写这个包的大神有提供数据,在他的github上的,下载test_samples文件下的数据,进行测试。里面有R的源码,以及每一步运行的数据。一般大神都有github账号,所以通过这种办法可以找到其他包的测试数据,更方便理解包的用途以及使用手法。library(NIPTe...

2019-04-28 13:45:56 1022 1

原创 TCGA数据库的学习-系列一

最近一直跟着曾老师的B站视频学习TCGA的相关知识,get到了很多以前很多新技能。以前也只是知道TCGA是权威癌症数据库,平时的工作也只是在里面找下癌症的热点基因和位点,以及看下文章。原来还可以下载TCGA的数据库,做一些其他的事,比如:拿这些数据进行自己研究结论的论证,或者是全面比较癌症的亚组(人种、突变与否、年龄、肿瘤分级),针对性获取数据并展示。研究思路是:1.从TCGA公共的数...

2019-04-26 11:19:47 3164

原创 gitforwindows 在windows下进行操作

gitforwindows 看名字,就知道是一个为windows服务的软件,可以在windows下进行shell的操作,虽然只是部分,但是也有两百多个,最常见的也是有的,比如awk,cat,cut,sed,scp等。进入官网点击下载,就会自动根据你的电脑选择对应的版本,下载完成后,双击安装,一路next下来,就可以了。不过安装好后,没有看到快捷方式,鼠标右键会看到 Git Gui Here 和...

2019-04-20 10:21:15 366

原创 根据引物数据做hotspot和target的bed文件

1.拿到一个已经设计好的引物表的时候,发现格式很乱,所以首先就是按照一定的格式把引物格式做好2. 把panel 按照如下格式进行调整,UniqueID要对应数据库,其中End应为Start加上Ref的碱基个数。3. hotspot 需要参照其他bed文件,自行添加头信息,修改makeTargetAndHotspot.py,运行。#!\usr\bin\python# codi...

2019-04-19 16:04:26 527 2

原创 统计fastq格式的数据质量值

现在对fastq格式的数据进行统计的软件也很多1.FastQC,目前也是用的比较多2.readfq 用来统计各种质量值3.fqcheck 我自己用的比较少 ,它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,Q20,Q30等4.iTools 主要也是统计质量值,功能很多5.FxTools 用于全面分析FASTA和FASTQ文件,涵盖用户从序列修...

2019-04-19 15:17:07 4138

原创 RNA-seq分析

最近发现这个网站的博客不合适放很多文件的项目,所以需要结合github一起来记录。第一次做RNA-seq,是完全按照这篇文章(PMID:27560171)进行跑流程的,虽然刚开始做的时候不是很懂,但是做完了整个流程(Hisat2+Stringtie+Ballgown)后,就明白了。下载:Hisat2+Stringtie+BallgownGFF 工具这是17年就做好的分析,所以可能...

2019-04-19 14:45:01 2519

原创 用R做GO功能注释和KEGG通路富集分析

KEGG -GO主要是使用R 中clusterProfiler包进行富集分析 以及使用pathview 包进行代谢途径整合和可视化。进行在线分析的:https://pathways.embl.de/1.代码:https://github.com/Cassiel60/R/blob/master/enrichment.r2.安装包:使用代码中的方法要多尝试几次,反正我第一次安装时就是安装...

2019-04-19 14:42:08 27808 5

转载 把clinvar转换为annovar的格式

下载最新的数据库:ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/annovar是注释用的比较多的软件,clinvar的数据库经常更新,要跟的上更新,就必须自己进行格式转换,也可以把自己的数据库放在annovar注释,比如hgmd,网上有很多优秀的python代码可以实现,可以自己写,也可以参照别人的官方的版本使用perl写的,不过需要安...

2019-04-19 14:40:34 2049 3

原创 yaml做配置文件

YAML是"YAML Ain't a Markup Language"(YAML不是一种置标语言)的递归缩写。可以做多种用途:脚本语言,序列化,配置文件我们常见的是config.yaml做配置文件可以看出,同一个缩进属于同一个级别的,可以理解为和window的文件夹一样,当前面有“-”,就是一个数组。python 在写pipline时,可以配合sys.argv[1]进行一个传参...

2019-04-19 12:24:25 2721

原创 HLA分型的摸索史

HLA(human leukocyte antigen ,人类白细胞抗原)是人类的主要组织相容性复合体(MHC)的表达产物,该系统是目前所知人体最复杂的多态系统。通过HLA的分型,可以找到疾病的原因,比如免疫系统疾病,超过90%的强直性脊柱炎患者,HLA-B*27抗原表达为阳性,最常见的就是HLA-B*27:04是致病风险亚基。要查看HLA相关的分型的临床表现,可以去SNPedia查看。HLA...

2019-04-19 12:04:07 2046

原创 python 提取NCBI上的CDS

# sequence.gb文件https://www.ncbi.nlm.nih.gov/nuccore/NC_000006.12?report=genbank#position.txt#生成的文件postion_HLA_seq.fafrom Bio import SeqIOfrom Bio.SeqRecord import SeqRecordfrom B...

2019-04-19 12:02:08 2530 3

原创 R包SangerSeqR处理ab1数据

#加载sangerseqR包library(sangerseqR)#读入数据seq = readsangerseq('input.ab1')#读取碱基数据,0.33指的是将达到主峰0.33的次峰定义为杂合子峰bc = makeBaseCalls(seq, ratio = 0.33)#读主峰primarySeq(seq)#读次峰secondarySeq(seq)#输出...

2019-04-19 11:24:18 2402

原创 python解析omim网页内容

利用zip()函数把四个列表一对一的组合成一个元组。zip()函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。利用map()函数对每一个元素进行函数操作,用匿名函数提取text和去掉\nmap()是 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并...

2019-04-19 10:08:20 1039

原创 统计bed文件下的reads数目和GC含量

最近发现,需要对bed(chr start end)文件进行处理,当你不知道有什么其他软件可以用的时候,不妨用bedtools来试试,看看它的各种用法,估计能满足。看名字,就大概知道干什么用了。bedtools工具可用于广泛的基因组学分析任务,即基因组上的集合论。例如,bedtools允许人们在广泛使用的基因组文件格式(例如BAM,BED,GFF / GTF,VCF)中交叉,合并,计数,补...

2019-04-15 14:08:46 5298

原创 使用matplotlib包画水平柱状图时出现中文乱码

在window下进行画图时,出现遇到中文就是方框的情况,发现是使用matplotlib包时出现的,这种情况很常见。可以通过matplot的rcParams属性来设置mpl.rcParams['font.sans-serif'] = ['SimHei'] #设置中文字体mpl.rcParams['axes.unicode_minus'] = False比如用matplot包画个水平柱...

2019-04-12 09:34:50 1640

原创 不用R包分析NIPT

比如从NCBI上面下载的优讯医学上传数据,发现用R包用不了时,可以这么做:1.进行比对# bwa mem 目前用的比较多bwa mem -t 16 -M -Y hg19.fa SRR6040607.fastq.gz | samtools view -bSh -t 16 -f bam > SRR6040607.bam#或者用:bwa aln -n 0 -e 0 -k 0 ...

2019-04-10 08:24:47 1098

原创 查找某一列内容在另外一个表的值

有多种方法可以实现,根据一个表中的某列查找另外一个表的值,常见的思路:1.在excel中用vlookup函数2.python代码,一行行的读取后,通过contains或者其他的是否包含来查找3.linux中的grep一个不常见的思路:把这两个表用pandas 读取后,利用pd.merge()进行相同列名(avsnp150)连接。result = pd.merge(df1...

2019-04-08 16:33:10 2728

原创 使用所读取的内容为文件命名时乱码

要批量查找snplist.txt文件里的rs号是否在已经得到注释好的文件时,批量查找,用#bin/bashcat snplist.txt|while read linedogrep -w ${line} XX.hg19_multianno.csv >>XX.txt done# grep "ab" 会找到结果为ab ,abc, abd, abt等,为模糊查找...

2019-04-08 14:15:14 267

原创 各种bam文件统计质量值的软件

1.bamdst -- a BAM Depth Stat Tool 对bam文件进行统计安装bamdst https://github.com/shiquan/bamdstgit clone https://github.com/shiquan/bamdst.gitcd bamdst makemake后直接help后,查看用法,有时候可能会提示bamdst不存在,本来已经存在...

2019-04-04 16:29:08 7573 1

原创 批量bwa比对和samtools排序

拿到fastq文件后,要进行比对和排序第一步是对reference建立索引bwa index -a bwtsw $reference #对于大基因组建立FM-Index#bwa index -a is ref.fasta #对小基因组建立index,速度快,内存消耗大第二步,批量比对和排序# 2.使用bwa men 比对mkdir ...

2019-04-04 16:03:52 5511 1

原创 liunx下选择文件大小为0的文件

查找当前路径下所有文件大小为0的文件,并输出这些文件的名字find . -name "*" -type f -size 0c > out.txt#find . -name 之间有空格修改对应的 -size 参数就可以查找指定大小的文件,如1k大小的文件(注意不要用 -size 1k,这个得到的是占用空间1k,不是文件大小1k的)find . -name "*" -typ...

2019-04-04 11:14:38 4086

原创 使用bcftools call 感兴趣的基因

看很多文章都是用samtoolsmpileup 来提取感兴趣的位置,其实现在使用这个命令时,会提示我们这个命令已经过时了,使用bcftoolsmpileup 和bcftools call 。bcftools是附属于samtools的程序,大多数用法是相同的,只是一些参数的变化,可以用bcftoolsmpileup来查看具体用法,或者看文档。https://samtools.githu...

2019-04-03 16:25:32 2127

原创 查看感兴趣的snp是否被测到

针对现在已有的rs号,想查看这些点在全外数据中是否被测到。因为目前只是有rs号,所以首先需要得到这些rs号所在的位置,然后去bam文件查看是否测到。1,拿到rs号去进行annovar注释,得到rsid.hg19_multianno.txt。/media/gsadmin/vd2/tmp/software/annovar/convert2annovar.pl -format rsid rsi...

2019-04-03 16:01:38 557

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除