如何下载、选择dbSNP数据库的变异位点vcf文件（hg19/hg38）

Cian小鱼干

已于 2022-04-11 10:23:58 修改

阅读量1.1w

点赞数 7

分类专栏：生物信息学文章标签：经验分享

于 2022-04-10 15:56:57 首次发布

本文链接：https://blog.csdn.net/qq_43722079/article/details/124075285

版权

生物信息学专栏收录该内容

9 篇文章

订阅专栏

创作日志：
下载的增强子数据文件里，没给增强子中包含的SNP信息，所以要自己写脚本补充。本来是想通过爬虫的方法在dbSNP的网站上边爬取边补充，但是谁知道dbSNP的搜索功能做得那么垃圾！于是就只能下载dbSNP的变异位点文件，然后再自己做处理。
当我经历了九九八十一难终于下载并解压好了120+G的vcf文件后，打印信息的时候tmd发现自己下载错了版本，我要用的是hg19，却下载成了hg38，欲哭无泪… 文件名不标版本真的很气人。于是读了读README文档，谁让以前不读呢。

具体步骤

注意：用python的PyVCF包可以直接读取vcf.gz文件，根本不需要解压。要解压的话得用linux的gunzip命令。

网址： https://www.ncbi.nlm.nih.gov/snp/

1、跳转至下载页面： 在这里插入图片描述
2、选择 organisms

3、根据需要选择文件夹

需要 hg19 的就选择 GRCh37，需要 hg38 的就选择 GRCh38。

至于 b150 和 b151 的区别：b150 的 00-All.vcf.gz 文件大小都是约7G，b151 的约15G。我没有仔细调查具体为什么，下载15G的肯定就对了。所以不管是 GRCh37还是GRCh38，不懂的话就选择 b151 那个文件夹，发布时间也更新。

至于 human 9606 文件夹：我第一次下载的就是这里面的00-All.vcf.gz文件，最后在处理数据的时候发现是GRCh38.p7版本的，应该与下面那个human 9606 b151 GRCh38p7是一样的，都是15G的大小。
在这里插入图片描述
4、选择VCF文件夹

5、下载 00-All.vcf.gz 文件

这个是最全的。common貌似只包括了最“常见”的人种的SNP。

如果是在linux上下载的话，图中的文件链接就是 https://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/00-All.vcf.gz。需要你们自己构造，然后 wget + 链接。
在这里插入图片描述
6、linux 解压vcf.gz文件

有必要解压的话：
刚开始我像个傻子一样地在windows上用360解压，过了一个小时，给我闪退了，我还以为是咋回事。我不知道到底能不能用windows解压，反正我尝试了几种都不行。
然后看到要用 linux 解压，因为我把文件下到了windows上，所以还得先把文件复制到 linux 服务器上，然后使用命令解压。命令如下：

gunzip 00-All.vcf.gz