linux 类似winscp_北京基因组所数据库介绍（类似sra和ebi）

最新推荐文章于 2024-07-25 15:06:47 发布

梁颖聪

最新推荐文章于 2024-07-25 15:06:47 发布

阅读量229

点赞数

文章标签： linux 类似winscp

本文链接：https://blog.csdn.net/weixin_33479657/article/details/112070918

版权

基因组学在生物学科的发展中，具有划时代的意义。同时，很多人在刚进入生物信息学领域时，最先接触的也往往是组装基因组，注释基因组。这在我们生信技能树的公号里有详细的教程，需要者可去公号get资源。前面jimmy老师介绍了sra和ebi这两个高通量测序数据存放中心：

使用aspera从EBI下载fastq数据，抛弃NCBI的SRA数据库吧！
解读SRA数据库规律一文就够

其实在中国也有类似sra和ebi的数据库资源存放中心，下面让我们去了解下如何从中科院北京基因组所下载数据。

首先，当你进入中科院北京基因组所的官网时，会看到各种介绍，最先看到的是对GSA数据的介绍。为确保与国际同类数据库系统的兼容性，GSA遵循INSDC联盟的数据标准，GSA元数据类别主要包括：项目信息(BioProject)、样本信息(BioSample)、实验信息(Experiment)、以及测序反应(Run)信息。

顾名思义，项目信息是用来描述所开展研究的目的、涉及物种、数据类型、研究思路等信息；样本信息是指本研究涉及的生物样本描述，如样本类型、样本属性等；实验信息包括实验目的、文库构建方式、测序类型等信息；测序反应信息包括测序文件和对应的校验信息。你，详(想)看下图所示：

至于元数据的组织关系，一个Run里放一对paired-end测序数据文件。网站使用三株菌株的比较基因组数据做了详细介绍，想看的同志可以移步https://bigd.big.ac.cn/gsa/documents。不同的是，GSA的数据库将生物学重复作为不同的Biosample，技术性重复作为不同的experiments。

下面进入正题(开始blablabla)…

Question 1

如何从下载data捏？

way1：

第一步：从官网进入，需要注册登录BIG Sub系统，在GSA数据库列表中，找到Operation有个“Share”控件。又要拿图说话了(图真好用！):

第二步：点击“Share”，会生成如下图所示的分享链接，复制该链接并提供给编审，其即可以查看数据。Again，如图所示：

Way2：

通过FTP传输数据，相当高效叻，想学的同志们，要注意听讲了哈！

单刀直入数据下载界面https://bigd.big.ac.cn/gsa/

点进去啊！同志们！选择自己需要下载的数据，比如我需要的数据网站是ftp://download.big.ac.cn/gsa/CRA000167

那么，问题来了，下载子文件夹中的一个很好下载，如果下载thousands of GSA data 肿么办呢？

憋慌，姐姐已经提前给你解决这个问题了。你们表太幸福啊。

Solution1：使用FTP传输软件进行下载，举个栗子哈，filezilla(不管你是苹果还是Windows，都好用到哭啊)或者winSCP。

Solution2: 使用wget啊，这可是入门生信的同志们最先接触的命令啊(想当年我也用wget下载第一个软件时可是兴奋得不要不要滴呀)BUT，光用wget 也只能一次下载一个数据文件，别慌，加参数啊还记得Linux里面常用的迭代吗？-r 好用到飞起来啊。Wget -r

ftp://download.big.ac.cn/gsa/CRA000167

就可以批量下载数据啦(我太快乐了)关键是还能按照网站存放数据那样，一个一个的文件夹分层次，真棒！当然，你也可以用循环，譬如我刚学的while 循环啦 for 循环了，也是相当好用。至于如何使用循环语句批量下载GSA的FTP数据，且听下回分解啦哈哈。最后，咱也是与时俱进的银耳啊，在如今Python盛行的era，可不能忘了他。使用Python的scrapy也是阔以爬数据滴，至于怎么使用爬虫爬取数据，且听下下回分解哈。

Question 2

如何向网站提交数据呢？

这个只能按照人家网站的规矩来咯!

账户注册完成后，您可遵循以下原则进行数据信息录入：

1) 进入GSA数据库创建GSA

2) 如果您之前没有创建项目(BioProject)和样本(BioSample)请分别进入BioProject数据库和BioSample数据库完成创建，详见GSA使用说明。

3) 完成GSA数据集中Experiment和Run的元数据信息录入——实现与BioProject、BioSample和数据文件的相互关联。

4) 通过FTP完成数据文件上传。

如果你有很多很多的数据需要批量提交的话呢？也肯定可以的了。

第一步，通过BIG Sub数据统一汇交入口，进入GSA数据库

第二步，点击“Batch Submission”进入“批量上传表格”下载页面，请根据提示信息下载相应的表格模板与例子，填好后请发送至gsa@big.ac.cn。

最后，还是要重磅推荐FTP传输tools啊，没办法，谁让人家办事能力强捏。