下载GSA文件

最新推荐文章于 2024-06-28 19:11:14 发布

小梁学生信

最新推荐文章于 2024-06-28 19:11:14 发布

阅读量4k

点赞数 2

分类专栏： linux小技巧

本文链接：https://blog.csdn.net/a2505568381/article/details/115330991

版权

linux小技巧专栏收录该内容

1 篇文章 0 订阅

订阅专栏

下载GSA文件

获取GSA项目号

因为想要复现一篇GWAS的文章，但是其数据上传到了GSA数据框。于是我就去查了一下GSA数据库的相关知识。GSA (Genome Sequence Archive)是2015年底，中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。数据模型和数据格式遵照INSDC标准，在功能上等同于NCBI的SRA，EBI的ENA和DDBJ的DRA。
想要下载GSA上的数据，首先要先去论文中找到数据的项目号（CRA000167）
Analysis of genetic architecture and favorable allele usage of agronomic traits in a large collection of Chinese rice accessions

获取CRA号

然后就可以去Genome Sequence Archive进行搜索，
在这里插入图片描述

下载数据

获取到CRA号之后，就可以开始下载数据了
FTP版：：ftp://download.big.ac.cn/gsa/CRA号

批量下载ftp数据命令如下

wget -c -r -np -k -L -p  ftp://download.big.ac.cn/gsa/CRA000004/
参数详解如下 ：
-c 断点续传
-r 递归下载，下载指定网页某一目录下（包括子目录）的所有文件 
-np 递归下载时不搜索上层目录，一定要加上这个参数，不然会下载太多东西的）
-k 将绝对链接转为相对链接，下载整个站点后脱机浏览网页，最好加上这个参数
-L 递归时不进入其它主机，

检验数据 md5

md5sum KPGP-00001_L1_R1.fq.gz> md5tmp1.txt

然后比较md5文件有没有差异，如果没有差异则表明下载成功。

小梁学生信

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
下载GSA文件

下载GSA文件获取GSA项目号获取CRA号下载数据获取GSA项目号因为想要复现一篇GWAS的文章，但是其数据上传到了GSA数据框。于是我就去查了一下GSA数据库的相关知识。GSA (Genome Sequence Archive)是2015年底，中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。数据模型和数据格式遵照INSDC标准，在功能上等同于NCBI的SRA，EBI的ENA和DDBJ的DRA。想要下载GSA上的数据，首先要先去论文中找到数据的项目号（CRA000167）获取C
复制链接

扫一扫

专栏目录