bioinformatics
文章平均质量分 62
卡西莫多的礼物
享受孤独
展开
-
makeblastdb及blastn的使用
文章目录简介使用makeblastdb创建自定义搜索库blastn极短序列比对简介blast是常用的比对软件,在linux系统下安装完成blast套件后,可以使用blastn进行核酸序列的比对,基本的使用模式为确定搜索的库,然后使用blastn对指定的序列在库中进行比对,如果想要自定义搜索库,需要使用makeblastdb来创建,更多的细节可以参考blast 官方文档接下来我将介绍如何创建自定...原创 2020-03-10 18:31:21 · 29506 阅读 · 4 评论 -
使用tabix创建索引并获取染色体区间信息
高通量测序产生的存放大量数据的文件往往十分庞大,即使是压缩文件,也有几十G到几百G,这样的文件获取其中某一区间信息的时候使用常用的Linux命令,例如grep awk等将非常耗时,这个时候,我们可以使用一些工具来创建索引并加快这个过程。对于那些排序好的包含染色体号及位置信息的文件,常见的VCF文件/Bam文件/GFF文件/Bed文件等,我们可以使用一些特殊工具例如samtools index/...原创 2019-12-16 23:18:30 · 5953 阅读 · 0 评论 -
使用bedtools merge合并有重复区间的bed文件
实际工作中, 在使用bcftools filter 获取某些区间的snp的时候,常常会由于bed文件中的区间相互有overlap而导致最终得到的结果中有重复的snp位点,这种情况下,我们就还需要去除重复位点,一种好的方法是在提取之前先对bed文件中的区间进行合并,合并的方法就是使用bedtools merge -i input.bed的方式。...原创 2019-12-13 15:12:52 · 9874 阅读 · 0 评论 -
bcftools 常用参数 --collapse说明
bcftools的多个子命令中都有--collapse参数的身影,例如bcftools norm 和bcftools concat中 -d和-D这两个参数,这两个参数的作用是去重duplicate 位点,去除的方式将按照通用参数 --collapse中指定的几个可选参数进行,这些方式包括如下截图中的几种可以看到参数none将会认为chr,pos,ref,alt也就是染色体号,位置,refe...原创 2019-12-13 14:53:30 · 1612 阅读 · 0 评论 -
gvcf文件与vcf文件
gvcf文件与vcf文件都是vcf文件,不同之处在于gvcf文件会记录更多的信息,这里更多的信息指的是未突变的位点的覆盖情况,从下面的图我们可以直观的看出两者的区别可以看到,gvcf文件也分两种,一种是-erc gvcf ,另一种是 -erc bp_resolution,这两种gvcf文件的区别在于前一种gvcf文件记录非突变位点的时候,以块的形式来记录,而后一种gvcf文件则是对非突变和...原创 2019-03-08 11:12:03 · 12615 阅读 · 0 评论 -
annovar脚本基本使用介绍
文章目录annovar软件简介convert2annovar.plannotate_variation.pltable_annovar.plannovar软件简介annovar软件是王凯教授开发的开源软件,用于对变异位点进行基因功能等相关注释,设计的注释内容非常全面,可以分为gene-based annotation,region-based annotation以及filter-based ...原创 2019-03-13 19:03:41 · 3909 阅读 · 0 评论 -
参考HGVS来解释突变对于cDNA,RNA及蛋白序列改变的描述
序列的突变命名使用了较多的特殊字符,因此解读起来需要一定的专业知识积累,具体每一种突变都会有自己特别的表示方式,我们在看不懂的时候,可以去查阅该网站http://varnomen.hgvs.org/通过点击某种指定的突变,例如snp,indel,insertion deletion等,而每个符号的含义请见http://varnomen.hgvs.org/recommendations/gener...原创 2019-05-29 10:13:20 · 907 阅读 · 1 评论 -
samtools及bam文件的相关知识
文章目录一些重要的概念首先是关于模板和read的概念然后是线性比对(linear alignment)和嵌合比对(chimeric alignment)的概念Phred scale1-base和0-base文件bam文件的headerbam文件的主要内容本文主要记录了阅读http://samtools.github.io/hts-specs/SAMv1.pdf 时学习到的一些内容主要包括bam...原创 2019-10-09 16:11:02 · 3856 阅读 · 0 评论 -
bcftools相关命令
bcftools最常用的子命令是index,index子命令主要用于对vcf文件进行查看,过滤和取子集。bcftools view snp.merged.vcf.gz -s C001 -t ^1 -r2,3 -Oz -o snp.chr2_3.vcf.gz这里来解释一下这些常用参数,-s为取子集用的,这里提取了snp.merged.vcf.gz文件中的样本C001的基因型注释,我们也可以...原创 2019-03-07 19:03:48 · 4654 阅读 · 0 评论 -
qq图
最近在做关联分析的时候,研究了一下QQ图的绘制方法QQ图的全称是Quantile-Quantile plot图,主要用于去判断某一系列的值是否符合正态分布,横坐标是理论值,纵坐标是实际值,当纵坐标和横坐标的坐标值相同的时候,红色的线将位于y=x的线上,如果大部分点都在这条红线上,就说明它们是符合正态分布的。实际值对应的理论值,也就是每一个点的横坐标是通过对所有的点排序,然后去计算它...原创 2019-03-06 15:26:25 · 12462 阅读 · 0 评论 -
生物信息专有名词积累
orthologue gene : 同源基因原文:1-to-1 orthologues Orthologues A type of orthologue assigned for a pair of species where only one copy is found in each species. 1-to-many orthologues ...原创 2018-11-02 14:03:14 · 1592 阅读 · 0 评论 -
生物信息常用文件类型
参考网址:http://www.ensembl.org/info/website/upload/index.html#formatshttp://gmod.org/wiki/GFF3bed文件:bed文件由3~12列内容构成,分为可选和必选列,如下图所示,必须列包括染色体号,起始位置,终止位置其他列的展示如下:GTF(General Transfer Format)文件...原创 2018-11-02 14:43:42 · 479 阅读 · 0 评论 -
数据标准化
有时候由于不同时间或者不同机器做出来的几组实验会存在一定的差异,这个时候就需要进行归一化处理,使得这几组实验结果能够在同一水平线下对话。https://www.cnblogs.com/followyourheart/articles/3349899.html1、 Max-Min标准化/离差标准化该方法将某个变量的观察值减去该变量的最小值,然后除以该变量的离差,其标准化的数值落到[0,1...转载 2018-11-02 15:29:36 · 254 阅读 · 0 评论 -
samtools depth 用于外显子未覆盖区域的统计及统计未覆盖区域的意义
samtools depth主要用来从bam文件中统计指定区域的深度情况。首先还是简单介绍一下samtools depth的基本用法,如下图所示我们可以通过samtools depth option 1.bam 2.bam...的方式来运行该软件,此外,最常用的参数是-r参数,我们可以指定一些区域来生成指定区域的深度情况,也可以通过输入一个-b参数输入一个bed 文件来实现该过程。 ...原创 2018-11-14 17:46:18 · 7994 阅读 · 1 评论 -
常用生物信息学格式介绍
转载https://blog.csdn.net/u012150360/article/details/70556186前言 在各个行业都是有行业标准的,这样才能统一规范而方便后面的分析,在生物信息学领域中主要是各种大量序列数据、注释数据等,这些都是有特定的格式去表示,下面列举几种常见的格式。了解这些是进行后续生物信息学分析的必备知识,有些人虽说是在做生物信息学分析,但是到现在可能还不知道...转载 2018-11-23 15:03:59 · 1024 阅读 · 0 评论 -
从bam文件的内容来学习Phred quality score /QUAL/Cigar/等常用概念
参考文献:sam文件详解 https://genome.sph.umich.edu/wiki/SAMmapping quality的算法 https://genome.sph.umich.edu/wiki/Mapping_Quality_Scores博客参考 https://blog.csdn.net/xcaryyz/article/details/79257604首先看一下,在b...原创 2018-11-23 15:29:40 · 3225 阅读 · 0 评论 -
使用igv.js插件在浏览器中展示基因组
igv是一款非常好用的展示基因组和reads覆盖的工具,由Broad institute研究所开发,目前除了桌面应用以外,还开发了igv.js的插件,可以用于浏览器的展示,我们可以在github上了解到该项目的相关内容https://github.com/igvteam,而关于igv.js的详细使用说明我们可以见https://github.com/igvteam/igv.js/wiki。现在让我...原创 2018-11-28 17:18:38 · 5743 阅读 · 1 评论 -
使用GEO数据库获取感兴趣实验的差异表达基因
GEO是gene expression omnibus的缩写,我们可以在这个数据库中查看别人的芯片实验的结果,因此我们可以根据自己的实验需求去找相关的实验并找到这些实验中有显著差异表达的基因,具体的步骤如下:进入GEO Profiles https://www.ncbi.nlm.nih.gov/geoprofiles并输入感兴趣的实验关键词,这里我对疾病子痫感兴趣,因此我输入了子痫preecl...原创 2018-12-19 17:29:14 · 18647 阅读 · 0 评论 -
人类参考基因组知识
文章目录人类参考基因组知识人类和小鼠的参考基因组由Genome Reference Consortium组织进行维护Chromosomes, scaffolds and contigsHaplotypes and patches一个参考基因组的例子人类参考基因组知识人类和小鼠的参考基因组由Genome Reference Consortium组织进行维护官网:https://www.ncbi...原创 2018-11-09 19:19:33 · 6520 阅读 · 1 评论