如何下载、选择dbSNP数据库的变异位点vcf文件(hg19/hg38)

创作日志:
下载的增强子数据文件里,没给增强子中包含的SNP信息,所以要自己写脚本补充。本来是想通过爬虫的方法在dbSNP的网站上边爬取边补充,但是谁知道dbSNP的搜索功能做得那么垃圾!于是就只能下载dbSNP的变异位点文件,然后再自己做处理。
当我经历了九九八十一难终于下载并解压好了120+G的vcf文件后,打印信息的时候tmd发现自己下载错了版本,我要用的是hg19,却下载成了hg38,欲哭无泪… 文件名不标版本真的很气人。于是读了读README文档,谁让以前不读呢。


具体步骤

注意:用python的PyVCF包可以直接读取vcf.gz文件,根本不需要解压。要解压的话得用linux的gunzip命令。

网址: https://www.ncbi.nlm.nih.gov/snp/

1、跳转至下载页面: 在这里插入图片描述
2、选择 organisms
在这里插入图片描述
3、根据需要选择文件夹

需要 hg19 的就选择 GRCh37,需要 hg38 的就选择 GRCh38。

至于 b150 和 b151 的区别 :b150 的 00-All.vcf.gz 文件大小都是约7G,b151 的约15G。我没有仔细调查具体为什么,下载15G的肯定就对了。所以不管是 GRCh37还是GRCh38,不懂的话就选择 b151 那个文件夹,发布时间也更新。

至于 human 9606 文件夹:我第一次下载的就是这里面的00-All.vcf.gz文件,最后在处理数据的时候发现是GRCh38.p7版本的,应该与下面那个human 9606 b151 GRCh38p7是一样的,都是15G的大小。
在这里插入图片描述
4、选择VCF文件夹
在这里插入图片描述
5、下载 00-All.vcf.gz 文件

这个是最全的。common貌似只包括了最“常见”的人种的SNP。

如果是在linux上下载的话,图中的文件链接就是 https://ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh37p13/VCF/00-All.vcf.gz。需要你们自己构造,然后 wget + 链接。
在这里插入图片描述
6、linux 解压vcf.gz文件

有必要解压的话:
刚开始我像个傻子一样地在windows上用360解压,过了一个小时,给我闪退了,我还以为是咋回事。我不知道到底能不能用windows解压,反正我尝试了几种都不行。
然后看到要用 linux 解压,因为我把文件下到了windows上,所以还得先把文件复制到 linux 服务器上,然后使用命令解压。命令如下:

gunzip 00-All.vcf.gz
  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值