生物信息分析
爱笑的小牙
要想持续有输出,就必须源源不断的输入!
展开
-
通过基因ID从GFF文件中获取基因位置
如果对整个数据的查看,就会发现位置不是唯一性的,里面很多同一个位置对应好几个MIM number或者好几个Entrez Gene ID,可能是这个位置太长了,里面对应的基因太多,所以如果我们简单的进行位置转化,在注释的时候,根据位置匹配,就会出现多个基因,最好的是根据OMIM数据库给的提示操作,把对应的位置范围缩小,才能更精准)由于OMIM上的位置是参考基因组GRch38,所以在进行hg19版本的annovar注释时,需要转化为hg19的,根据OMIM数据库上的提示,我们可以从gff文件中获取对应的位置。原创 2023-10-11 09:04:42 · 1854 阅读 · 0 评论 -
biopython 根据关键词在NCBI上查找文献
Biopython是python的一个库,帮助生物学家解决感兴趣的事情。功能很多,比如:处理序列,解析序列文件格式(FASTA,GENEBANK),连接生物学数据库(NCBI,ExPASY,SCOP)。如:我们想在NCBI的PubMed数据库中查找与epilepsy相关的文章,然后输出title,author,source这些信息,这些对于在报告中显示参考文献时,很有必要。不用biopytho...原创 2021-06-26 11:33:40 · 1037 阅读 · 0 评论 -
把PGM仪器上两次数据进行合并后再跑variantCaller的流程
因为一个样本做了两次,两次的深度都不是很大,需要把两次的数据bam文件进行合并后再运行流程,这时候拿到合并的数据后肯定不能在网页端进行插件运行了,需要自己把数据拷贝到仪器的服务器,运用相应的软件以及脚本进行运行了。1.分别合并两次的ubam,bam文件#常规做法samtools merge total.bam input1.bam input2.bamjava -jar picard.jar MergeSamFiles I=input1.bam I=input2.bam2. 合并好后就放.原创 2020-06-10 15:08:12 · 553 阅读 · 0 评论 -
对annovar注释的总结
新的一年到了,到了该更新数据库的时候了,首先就从常用的annovar软件以及所使用的数据库开始更新吧。1.下载最新版的annovar软件,annovar.latest版本,需要一个edu的邮箱。2.下载注释所用的数据库,官网上太多,可以根据需要自行下载,比如下载hg19版本的, clinvar数据库更新到20190305版本了,但是NCBI数据库已经更新到20191223了,可以自己下载后...原创 2020-01-20 17:32:23 · 7062 阅读 · 3 评论 -
RNA-seq分析
最近发现这个网站的博客不合适放很多文件的项目,所以需要结合github一起来记录。第一次做RNA-seq,是完全按照这篇文章(PMID:27560171)进行跑流程的,虽然刚开始做的时候不是很懂,但是做完了整个流程(Hisat2+Stringtie+Ballgown)后,就明白了。下载:Hisat2+Stringtie+BallgownGFF 工具这是17年就做好的分析,所以可能...原创 2019-04-19 14:45:01 · 2523 阅读 · 0 评论 -
NIPTeR包分析 NIPT
前段时间一直纠结于,用NIPTeR包分析·NIPT数据时,报错的问题,后面知道是从NCBI下载的数据不适用于这个包,其实写这个包的大神有提供数据,在他的github上的,下载test_samples文件下的数据,进行测试。里面有R的源码,以及每一步运行的数据。一般大神都有github账号,所以通过这种办法可以找到其他包的测试数据,更方便理解包的用途以及使用手法。library(NIPTe...原创 2019-04-28 13:45:56 · 1031 阅读 · 1 评论 -
统计bed文件下的reads数目和GC含量
最近发现,需要对bed(chr start end)文件进行处理,当你不知道有什么其他软件可以用的时候,不妨用bedtools来试试,看看它的各种用法,估计能满足。看名字,就大概知道干什么用了。bedtools工具可用于广泛的基因组学分析任务,即基因组上的集合论。例如,bedtools允许人们在广泛使用的基因组文件格式(例如BAM,BED,GFF / GTF,VCF)中交叉,合并,计数,补...原创 2019-04-15 14:08:46 · 5315 阅读 · 0 评论 -
TCGA数据库的学习-系列一
最近一直跟着曾老师的B站视频学习TCGA的相关知识,get到了很多以前很多新技能。以前也只是知道TCGA是权威癌症数据库,平时的工作也只是在里面找下癌症的热点基因和位点,以及看下文章。原来还可以下载TCGA的数据库,做一些其他的事,比如:拿这些数据进行自己研究结论的论证,或者是全面比较癌症的亚组(人种、突变与否、年龄、肿瘤分级),针对性获取数据并展示。研究思路是:1.从TCGA公共的数...原创 2019-04-26 11:19:47 · 3173 阅读 · 0 评论 -
不用R包分析NIPT
比如从NCBI上面下载的优讯医学上传数据,发现用R包用不了时,可以这么做:1.进行比对# bwa mem 目前用的比较多bwa mem -t 16 -M -Y hg19.fa SRR6040607.fastq.gz | samtools view -bSh -t 16 -f bam > SRR6040607.bam#或者用:bwa aln -n 0 -e 0 -k 0 ...原创 2019-04-10 08:24:47 · 1103 阅读 · 0 评论 -
查看感兴趣的snp是否被测到
针对现在已有的rs号,想查看这些点在全外数据中是否被测到。因为目前只是有rs号,所以首先需要得到这些rs号所在的位置,然后去bam文件查看是否测到。1,拿到rs号去进行annovar注释,得到rsid.hg19_multianno.txt。/media/gsadmin/vd2/tmp/software/annovar/convert2annovar.pl -format rsid rsi...原创 2019-04-03 16:01:38 · 562 阅读 · 0 评论 -
使用bcftools call 感兴趣的基因
看很多文章都是用samtoolsmpileup 来提取感兴趣的位置,其实现在使用这个命令时,会提示我们这个命令已经过时了,使用bcftoolsmpileup 和bcftools call 。bcftools是附属于samtools的程序,大多数用法是相同的,只是一些参数的变化,可以用bcftoolsmpileup来查看具体用法,或者看文档。https://samtools.githu...原创 2019-04-03 16:25:32 · 2146 阅读 · 0 评论 -
多个vcf文件合并
看起来用vcftools中的vcf-merge 1.vcf 2.vcf >out.vcf 很简单,但是在使用过程中遇到很多问题:1.安装vcftools时,https://vcftools.github.io/index.html。里面有多种方法下载,首先常规方法是https://sourceforge.net/projects/vcftools/files/,安装后,执行不出来结果,...原创 2019-03-29 13:57:59 · 14627 阅读 · 0 评论 -
HLA分型的摸索史
HLA(human leukocyte antigen ,人类白细胞抗原)是人类的主要组织相容性复合体(MHC)的表达产物,该系统是目前所知人体最复杂的多态系统。通过HLA的分型,可以找到疾病的原因,比如免疫系统疾病,超过90%的强直性脊柱炎患者,HLA-B*27抗原表达为阳性,最常见的就是HLA-B*27:04是致病风险亚基。要查看HLA相关的分型的临床表现,可以去SNPedia查看。HLA...原创 2019-04-19 12:04:07 · 2051 阅读 · 0 评论 -
yaml做配置文件
YAML是"YAML Ain't a Markup Language"(YAML不是一种置标语言)的递归缩写。可以做多种用途:脚本语言,序列化,配置文件我们常见的是config.yaml做配置文件可以看出,同一个缩进属于同一个级别的,可以理解为和window的文件夹一样,当前面有“-”,就是一个数组。python 在写pipline时,可以配合sys.argv[1]进行一个传参...原创 2019-04-19 12:24:25 · 2806 阅读 · 0 评论 -
把clinvar转换为annovar的格式
下载最新的数据库:ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/annovar是注释用的比较多的软件,clinvar的数据库经常更新,要跟的上更新,就必须自己进行格式转换,也可以把自己的数据库放在annovar注释,比如hgmd,网上有很多优秀的python代码可以实现,可以自己写,也可以参照别人的官方的版本使用perl写的,不过需要安...转载 2019-04-19 14:40:34 · 2055 阅读 · 3 评论 -
用R做GO功能注释和KEGG通路富集分析
KEGG -GO主要是使用R 中clusterProfiler包进行富集分析 以及使用pathview 包进行代谢途径整合和可视化。进行在线分析的:https://pathways.embl.de/1.代码:https://github.com/Cassiel60/R/blob/master/enrichment.r2.安装包:使用代码中的方法要多尝试几次,反正我第一次安装时就是安装...原创 2019-04-19 14:42:08 · 27858 阅读 · 5 评论 -
统计fastq格式的数据质量值
现在对fastq格式的数据进行统计的软件也很多1.FastQC,目前也是用的比较多2.readfq 用来统计各种质量值3.fqcheck 我自己用的比较少 ,它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,Q20,Q30等4.iTools 主要也是统计质量值,功能很多5.FxTools 用于全面分析FASTA和FASTQ文件,涵盖用户从序列修...原创 2019-04-19 15:17:07 · 4148 阅读 · 0 评论 -
根据引物数据做hotspot和target的bed文件
1.拿到一个已经设计好的引物表的时候,发现格式很乱,所以首先就是按照一定的格式把引物格式做好2. 把panel 按照如下格式进行调整,UniqueID要对应数据库,其中End应为Start加上Ref的碱基个数。3. hotspot 需要参照其他bed文件,自行添加头信息,修改makeTargetAndHotspot.py,运行。#!\usr\bin\python# codi...原创 2019-04-19 16:04:26 · 534 阅读 · 2 评论 -
gitforwindows 在windows下进行操作
gitforwindows 看名字,就知道是一个为windows服务的软件,可以在windows下进行shell的操作,虽然只是部分,但是也有两百多个,最常见的也是有的,比如awk,cat,cut,sed,scp等。进入官网点击下载,就会自动根据你的电脑选择对应的版本,下载完成后,双击安装,一路next下来,就可以了。不过安装好后,没有看到快捷方式,鼠标右键会看到 Git Gui Here 和...原创 2019-04-20 10:21:15 · 367 阅读 · 0 评论 -
WES流程-系列一
目前分析WES/WGS的软件已经很多了,这次主要写GATK,和samtools mpileup 和bcftools call 流程。1,需要安装的软件trimmomatic,bwa,samtools,gatk bcftools ,vcftools,snpeff,multiqc,qualimap 等2.数据库的下载...原创 2019-04-29 16:08:43 · 1034 阅读 · 0 评论 -
Biopython根据关键词在NCBI上查找文献
Biopython是python的一个库,这个库可以解决很多生物上的问题,使大量的生物数据简单化,是个很好用的包。对于数据库上的各种信息,有专门的函数处理,不用按照常规的文本处理方法,写大量的代码。比如很常见的报告中展示的参考文献,一般思路是有了文章的PMID,然后通过爬虫的方法,获取这些文章的title,author,source等信息。在Biopython中有自己独特的解决方法。在NC...原创 2019-05-29 09:12:19 · 2855 阅读 · 0 评论 -
各种bam文件统计质量值的软件
1.bamdst -- a BAM Depth Stat Tool 对bam文件进行统计安装bamdst https://github.com/shiquan/bamdstgit clone https://github.com/shiquan/bamdst.gitcd bamdst makemake后直接help后,查看用法,有时候可能会提示bamdst不存在,本来已经存在...原创 2019-04-04 16:29:08 · 7602 阅读 · 1 评论 -
批量bwa比对和samtools排序
拿到fastq文件后,要进行比对和排序第一步是对reference建立索引bwa index -a bwtsw $reference #对于大基因组建立FM-Index#bwa index -a is ref.fasta #对小基因组建立index,速度快,内存消耗大第二步,批量比对和排序# 2.使用bwa men 比对mkdir ...原创 2019-04-04 16:03:52 · 5562 阅读 · 1 评论 -
使用NIPTeR包分析NIPT遇到的问题
library(NIPTeR)#Gather all bam filepaths in a vector. Corresponds to 1a in figurebam_filepaths <- list.files(path = "/Path/to/bamfiles/", pattern = ".bam", full.names = T)#Load all bam files us...原创 2019-03-29 15:57:23 · 626 阅读 · 0 评论 -
qiime安装
参考网址:https://forum.qiime2.org/t/qiime2-chinese-manual/838http://qiime.org/install/install.html 安装好qiime后,脚本的运行必须在qiime环境下输入:source activate qiime1 ...原创 2018-08-12 17:44:01 · 1614 阅读 · 0 评论 -
bam(sam)格式文件转化为fasta格式
bam2fasta的转变方式:samtools view input.bam | awk '{OFS="\t"; print ">"$1"\n"$10}' - > output.fastasam2fasta的转变方式cat *.sam | awk '{print ">"$1"\n"$10}' > *.fasta查看bam文件 samtool转载 2018-07-31 09:47:00 · 17842 阅读 · 0 评论 -
read length histogram
1.先统计fastq里面reads length 数目。awk 'NR%4 == 2 {lengths[length($0)]++} END {for (l in lengths) {print l, lengths[l]}}' 91.fastq >read_length.txt 2.用R语言画图读取文件:reads<-read.csv(file="read_leng...原创 2018-07-22 16:56:28 · 693 阅读 · 0 评论 -
linux下把软件添加到环境中遇到的问题总结
1.把路径添加到.bashrc中,(1)遇到如下问题:syntax error near unexpected token `(' 的错误原因是:linux5.0之后,是不能带有括号的,这个时候就需要转译了。方法:rm -f HIBIKI_API(1).jar →1.rm -f HIBIKI_API\(1\).jar ...原创 2018-07-24 21:05:37 · 582 阅读 · 0 评论 -
基因组从头组装
基因组组装基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表示从大规模测序得到的短读(reads)中找到的一致性序列。组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口(gap...原创 2018-07-18 21:03:07 · 6194 阅读 · 0 评论 -
对于linux 难删除的文件
这里说的难删除,一般是rm filename ,rm -f filename 都没法删除的文件(考虑过因为权限问题,所以加sudo,还是没办法解决)比如:没法删除\192.168.1.205XXXX.biom文件。解决办法:sudo rm ./*91.biom原因是:前面有转译符/ 会认为是根文件,所以就需要加上./ 。 ...原创 2018-07-18 12:41:06 · 232 阅读 · 0 评论 -
本地(windows)文件和linux之间的互传
从本地上传文件到linux的方法:1.百度搜索是scp (在ip后面的“:/” 不能有空格)scp /home/administrator/Desktop/old/driver/test/test.txt uesr_name@user_ip:/root/如果是文件夹,在scp后面加一个-r即可2.ftp上传(提示错误,放弃)3.用mount方法,没试过4.用lrzsz 方法...原创 2018-07-17 18:11:37 · 270 阅读 · 0 评论 -
二代测序文件fastq转换为fasta格式
awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' xx.fastq >xx.fasta原创 2018-07-16 16:14:59 · 14109 阅读 · 1 评论 -
MetaPhlAn2-宏基因组分类谱工具
参考http://blog.sciencenet.cn/blog-3334560-1110159.htmlMetaPhlAn2是分析微生物群落(细菌、古菌、真核生物和病毒)组成的工具,它在宏基因组研究中非常有用,只需一条完命令即可获得微生物的物种丰度信息(扩增子物种组成需要质控、拼接、拆样本、切除引物、比对等步骤,此软件居然分析宏基因组这么方便)。同时配合自带的脚本可进一步统计和可视化。...原创 2018-08-12 18:37:53 · 2170 阅读 · 0 评论 -
linux命令行下如何进入带空格的文件夹
在linux下,进入Bioinfor Storage文件时,用cd Bioinfor Storage总会提示Bioinfor文件不存在,可以使用加英文的引号cd "Bioinfor Storage" 或cd Bioinfor\ Storage如果"\"在行末,是说明本行还未结束,下面一行和本行是一起的意思. “\”后如果是回车,不换行的话可能省略;但要是其它字符,就不能省略。 ...原创 2019-02-19 14:39:01 · 470 阅读 · 0 评论 -
linux绝对路径和相对路径的判断
绝对路径:以/开头的路径为绝对路径,如/home/ct, /usr/bin, /home/ct/data 等。需要注意的是~/data 等同于/home/ct/data, 多数情况下可以等同于绝对路径,但在一个情况下例外,软件安装时用于--prefix 后的路径必须是/开头的绝对路径。相对路径: 不以/和~ 开头的路径都是相对路径,如data 表示当前目录下的data 目录,等同于./dat...原创 2019-02-19 16:27:53 · 2739 阅读 · 0 评论 -
NIPT的学习
非侵入性产前检测(NIPT)是一种基于使用新一代测序分析母体血液中无细胞胎儿(cff)DNA的方法。基本方法相对简单:从母体血浆中分离无细胞DNA,并对获得的DNA片段进行测序。随后计数源自不同染色体的DNA片段的数量,因为在胎儿三体性的情况下,预期三体染色体的读数部分的相对增加。原理是:http://www.nicpbp.org.cn/directory/web/WS02/i...原创 2019-03-22 15:37:22 · 1758 阅读 · 0 评论 -
Exomiser做家系分析时的准备工作
1.基本操作:https://blog.csdn.net/Cassiel60/article/details/887065382.家族文件合并:https://blog.csdn.net/Cassiel60/article/details/888904833.准备ped文件:FAM1 父样本名 0 0 1 是否患病(是2/否1)FAM1 母样本名 0 0 2 是否患病(是2/否1)...原创 2019-03-29 15:23:42 · 739 阅读 · 0 评论 -
ncbi下载sra数据
避免再次出现下载SRA数据找不到下载链接,记录一下1,下载sra工具,去官网上下载sratoolkit最新版本https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software,解压安装。2.然后在NCBI里面搜索SRA,输入所查找的号,比如SRR60406183.进入后,点击右上角的Send to,选择File,在下拉页选择...原创 2019-03-22 13:33:50 · 4118 阅读 · 2 评论 -
Exomiser疾病表型与遗传变异关联分析分析
从周在威老师那里了解到exomiser这款分析软件,初次实验了下,感觉还是挺有帮助的,尤其是对于全外数据或者全基因组数据。在使用前需要了解:1.该软件是用java写的,所以需要系统有java2.看它的官方文档,知道他是干什么的名字,怎么用。官网https://exomiser.github.io/Exomiser/操作文档:https://exomiser.github.io/E...原创 2019-03-21 09:40:08 · 2231 阅读 · 1 评论 -
常见生信操作
安装samtools :conda install samtools# srand: 随机数发生器。设置固定的种子, 保证每次出来的结果一致# rand: 返回[0,1)之间的随机数, 包含0不包含11.产生随机的基因组文件echo 1 | awk -v seed=1 -v label=chr -v chrNum=4 -v expected_len=60000 -f gene...转载 2019-03-11 16:21:20 · 929 阅读 · 0 评论