笔记:CMDB-大规模中国人群体变异频率数据库

简介

CMDB(全称是Chinese Millionome Database),大约包含了9M个高质量的变异位点(约占人类基因组总长的0.003)。

数据库网站的第一版是参考ExAC做的,使用的底层框架是常见的Nginx+Flask+MongoDB。可通过Genome API访问,不过CMDB中的数据不能够被下载。

CMBD官网地址:
开发者知乎介绍:https://zhuanlan.zhihu.com/p/52238870
作者解读CMDB:https://mp.weixin.qq.com/s?__biz=MzAxOTUxOTM0Nw==&mid=2649798742&idx=1&sn=3b27cafe9ecd8ecd3c35bc1b1dbad947&chksm=83c1da4ab4b6535cd6265f600375f524ec071b8155462e5e042bfa013a42b98300b74efa740b&scene=21#wechat_redirect
Git 软件说明:https://github.com/ShujiaHuang/cmdbtools

安装

1、命令行直接安装

pip install cmdbtools

2、git安装

地址:https://github.com/ShujiaHuang/cmdbtools

pip install git+git://github.com/ShujiaHuang/cmdbtools.git#egg=cmdbtools

3、查看帮助信息

cmdbtools --help
usage: cmdbtools [-h]
                {login,logout,print-access-token,annotate,query-variant} ...

Manage authentication for CMDB API and do querying from command line.

optional arguments:
 -h, --help            show this help message and exit

Commands:
 {login,logout,print-access-token,annotate,query-variant}
   login               Authorize access to CMDB API.
   logout              Logout CMDB.
   print-access-token  Display access token for CMDB API.
   annotate            Annotate input VCF.
   query-variant       Query variant by variant identifier or by chromosome
                       name and chromosomal position.

使用

1、API使用许可

申请API AK, 提交申请:
在这里插入图片描述

官方批准后获得:
在这里插入图片描述

1.2 使用

1.2.1 登录

your-genomics-api-key为获批的API AK

cmdbtools login -k your-genomics-api-key

1.2.2 查询

1.2.2.1 位点信息查询

以 chr17-41223094-T-C 为例:

cmdbtools query-variant -c chr17 -p 41223094 > ch17_41223094.vcf

或者 以输入文件(positions.list )的形式导入要查询的位点信息

cmdbtools query-variant -l positions.list > result.vcf

positions.list如下:

#CHROM  POS
chr22	17662378
chr22	17662408
22	17662442
22	17662444
22	17662699
22	17662729
22	17662766
22	17662767
22	17662793
22	17662794
22	17662853
22	17662883
chr22	17662917
22	17663530
22	17663561
22	17663586
22	17669232
22	17669238
22	17669239
22	17669241
22	17669245
22	17669265
22	17669339
22	17670869
22	17670877
22	17672663
22	17684454
22	17684466
22	17684477
22	17684546
22	17684627
22	17684643
22	17687954
22	17687992
22	17687997
22	17688069
22	17688144
22	17688167
22	17688177
22	17690290
22	17690374
22	17690382
22	17690409
22	17690423
22	17690424
22	17690425
22	17690428
22	17690428
22	17690429
22	17690429
22	17690468
22	17690485
22	17690496
22	17662353    17663671
22	17669209    17669357
1.2.2.2 注释到vcf

直接对vcf.gz文件进行注释:

cmdbtools annotate -i multiple_samples.vcf.gz > multiple_samples_CMDB.vcf

你可以的到如下的结果:

##fileformat=VCFv4.2
##ALT=<ID=NON_REF,Description="Represents any possible alternative allele at this location">
##FILTER=<ID=LowQual,Description="Low quality">
##INFO=<ID=AC,Number=A,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=BaseQRankSum,Number=1,Type=Float,Description="Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities">
##reference=file:///home/tools/hg19_reference/ucsc.hg19.fasta
##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0">
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
chr21   9413612 .       C       T       6906.62 .       AC=25;AF=0.313;AN=80;BaseQRankSum=0.425;CMDB_AC=2459;CMDB_AF=0.207525;CMDB_AN=11834;CMDB_FILTER=PASS
chr21   9413629 .       C       T       8028.88 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-1.200e+00;CMDB_AC=6906;CMDB_AF=0.305445;CMDB_AN=22406;CMDB_FILTER=PASS
chr21   9413700 .       G       A       7723.82 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-9.000e-02
chr21   9413735 .       C       A       10121.72        .       AC=35;AF=0.438;AN=80;BaseQRankSum=0.977;CMDB_AC=2385;CMDB_AF=0.283965;CMDB_AN=8382;CMDB_FILTER=PASS
chr21   9413839 .       C       T       8192.08 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-5.200e-02
chr21   9413840 .       C       A       11514.35        .       AC=38;AF=0.475;AN=80;BaseQRankSum=0.253
chr21   9413870 .       T       C       7390.60 .       AC=26;AF=0.325;AN=80;BaseQRankSum=-4.270e-01
chr21   9413880 .       T       A       146.96  .       AC=1;AF=0.013;AN=80;BaseQRankSum=2.12;ClippingRankSum=0.00
chr21   9413909 .       G       A       1131.78 .       AC=10;AF=0.125;AN=80;BaseQRankSum=0.549;CMDB_AC=209;CMDB_AF=0.01507;CMDB_AN=13683;CMDB_FILTER=PASS
chr21   9413913 .       C       T       8120.65 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-4.390e-01;CMDB_AC=2870;CMDB_AF=0.205597;CMDB_AN=13955;CMDB_FILTER=PASS
chr21   9413945 .       T       C       43787.68        .       AC=71;AF=0.888;AN=80;BaseQRankSum=0.089
chr21   9413995 .       C       T       9632.44 .       AC=29;AF=0.363;AN=80;BaseQRankSum=0.747
chr21   9413996 .       A       G       41996.48        .       AC=71;AF=0.888;AN=80;BaseQRankSum=-1.242e+00;CMDB_AC=3308;CMDB_AF=0.688533;CMDB_AN=4790;CMDB_FILTER=PASS
chr21   9414003 .       T       C       4256.54 .       AC=19;AF=0.238;AN=80;BaseQRankSum=-6.030e-01

结果说明:
CMDB_AF: CMDB数据库中的突变频率信息;
CMDB_AN: 该位点在CMDB数据库中总的群体覆盖深度;
CMDB_AC: 该位点在CMDB数据库中支持该变异的群体覆盖深度;
CMDB_FILTER:质控标记,一般是PASS

1.2.3 登出

cmdbtool logout
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值