1000geno_maf

千人基因组计划相关SNP下载
在网址https://ftp-trace.ncbi.nih.gov/1000genomes/ftp/release/20100804/ALL.2of4intersection.20100804.genotypes.vcf.gz获得千人基因组计划数据
这是一个大小为64G的文件,为了加快下载进程,使用ascp下载命令进行下载
首先进入aspera官方网站,找到「IBM Aspera Connect」,进入下载页面,找到对应的版本与平台,这里以Linux平台最新的3.10.0版本为例进行介绍。
# 下载
wget https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/092u0/0/ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz
# 解压
tar xvf ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz
# 解压后得到一个脚本文件,运行该脚本,即可完成自动安装
sh ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.sh
# 所有安装文件都在~/.aspera/connect目录下,添加环境变量
echo 'export PATH=~/.aspera/connect/bin/:$PATH' >> ~/.bashrc
# 使环境变量生效
source ~/.bashrc
# 查看ascp可执行文件所在的路径,应该是:~/.aspera/connect/bin/ascp
which ascp
# 看程序是否能正常运行
ascp -h
#人类基因组计划相关SNP下载
ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 100M -T -P33001 fasp-g1k@fasp.1000genomes.ebi.ac.uk:vol1/ftp/release/20100804/ALL.2of4intersection.20100804.genotypes.vcf.gz .
在千人基因组文件所在目录下打开终端后,输入plink
#下一行代码将输出bed,bim,fam三个文件,其中bed是一个二进制文件
plink --vcf ALL.2of4intersection.20100804.genotypes.vcf.gz --make-bed --out ALL.2of4intersection.20100804.genotypes
#下面这条命令中的sample.txt由两列构成,第一列为提取的样本Family ID,第二列为Within-family ID(IID)
plink --bfile ALL.2of4intersection.20100804.genotypes --keep sample.txt --recode --make-bed --out ch_sample
#计算等位基因频率
plink --bfile ch_sample --freq --out ch_MAF_check

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值