生信的各种数据库

欢迎关注"生信修炼手册"

annnovar filter-based annotaton用于分析哪些变异位点是数据库中的已知位点,在判断时,除了染色体位置之外,allel也必须相同。region-based annotation 在分析时只考虑基因组位置,只要是存在overlap关系就会输出结果,而filter-based annotation会更加严格,首先要求基因组上的起始和终止位置必须完全一致,其次变异位点的allel也必须完全相同才行。

简而言之,filter-based annotation 就是在做一个数据库检索的工作,将和数据库中完全相同的记录输出出来,看上去就像在对原始输入文件进行一个筛选,所以叫做filter-based annotation。

对于filter-based annotatoin 而言,数据库众多,常用的数据库可以分成以下8个类别

1. 基于全基因组数据的突变位点频率数据库
  • 1000g2015aug

  • kaviar_20150923

  • hrcr1

  • cg69

  • gnomad_genome

2. 基于全外显子组数据的突变位点频率数据库
  • exac03

  • esp6500siv2

  • gnomad_exome

3. 特殊人群的突变位点频率数据库
  • ajews

  • TMC-SNPDB

  • gme

4. 基于全基因组数据的突变位点功能预测数据库
  • gerp++

  • cadd

  • cadd13

  • dann

  • fathmm

  • eigen

  • gwava

5. 基于全外显子数据的突变位点功能预测数据库
  • dbnsfp30a

6. 剪切区域的突变位点功能预测数据库
  • dbscsnv11

  • spidex

7 . 疾病相关的突变位点数据库
  • clinvar_20160302

  • cosmic70

  • icgc21

  • nci60

8. 通用的突变位点数据库
  • snp142

  • avsnp142

数据库非常的多,每个数据库的详细介绍可以参考annovar的官方文档。这些数据库文件都比较大,从几个G到上百G都有,所以就不一一展示了。这里以1000g2015aug为例,进行说明

第一步,下载数据库,命令如下

annotate_variation.pl -buildver hg19  -downdb 1000g2015aug  humandb

第二步,进行注释,命令如下

annotate_variation.pl -filter -dbtype 1000g2015aug_all  -buildver hg19 ex1.avinput humandb/


   
   
  1. NOTICE: Variants matching filtering criteria are written to ex1.avinput.hg19_ALL.sites .2015_08_dropped, other variants are written to ex1.avinput.hg19_ALL.sites .2015_08_filtered
  2. NOTICE: Processing next batch with 23 unique variants in 23 input lines
  3. NOTICE: Database index loaded. Total number of bins is 2824642 and the number of bins to be scanned is 19
  4. NOTICE: Scanning filter database humandb/hg19_ALL.sites .2015_08.txt...Done

输出文件有两个,在数据库中有记录的输出到后缀为hg19_ALL.sites.2015_08_dropped文件中,这个文件在输入文件的基础上新增了两列注释信息,内容如下


   
   
  1. 1000g2015aug_all     0.0676917
  2. 1000g2015aug_all     0.620607
  3. 1000g2015aug_all     0.843251
  4. 1000g2015aug_all     0.0227636
  5. 1000g2015aug_all     0.548922
  6. 1000g2015aug_all     0.903155

第一列表示数据库的名字,第二列表示1000G数据库中的突变位点在人群中的等位基因频率MAF。

在数据库中没有的记录就输出到后缀为hg19_ALL.sites.2015_08_filtered文件中。

从这个例子可以看到,filter-based annotation其实包含了两个含义:filter 和 annotation, 对于数据库中存在的突变位点,采用数据库中的注释信息进行注释;对于数据库中不存在的突变位点,筛选出来保存到一个单独的文件中。

在使用filter-based annotation时,数据库的选择是核心。这就要求对于常用的数据库非常了解,知道其中存储了哪些注释信息,应用起来才能得心应手。在之前的文章中也对其中部分数据库进行了简单介绍,大家可以参考。

对于annnvar 而言,gene-based annotation 提供了两种信息,与突变位点距离最近的基因和突变位点在基因组特征上的分布;region-based annotation 提供了变异位点与某段区域的overlap信息,这里的某段区域可以灵活选择,比如转录因子结合区,组蛋白集合区等等;filter-based annotation 提供了数据库检索和过滤功能,不同类型的数据库提供了多种类型的注释信息。总而言之,annovar 软件使用起来简单方便,但是理解诸多的数据库才是核心。

扫描关注微信号,更多精彩内容等着你!

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值