ftp 速度_如何下载生物数据(二):利用ftp下载参考基因组

欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
前面我们介绍了如何进行生物数据的检索,当得到了数据的下载地址之后,接下来就可以开始下载了,那么下载数据的方式有很多种,最常用的就是使用浏览器进行下载,不过浏览器使用的是http(s)协议,下载速度慢,而且如果突然中断,断点续传也比较麻烦,这次我们介绍更好用的ftp协议下载方式。

FTP下载

FTP 是File Transfer Protocol(文件传输协议)的英文简称,相比于http协议,更加稳定,传输速度也更快。
很多网站提供ftp协议的数据下载。

#例如ncbi的ftp地址为:
ftp://ftp.ncbi.nlm.nih.gov/
#embl的ftp地址为:
ftp://ftp.ensembl.org/pub/

访问ftp服务器需要四个元素。

  • ftp的地址,
  • 用户名和密码,可以匿名访问,Anonymous,也就是数据是公开的,不需要要填写。
  • 端口号,ftp默认端口号是21,一般也不用填写;
  • 连接工具,有很多工具,这里面我们使用filezilla作为演示。

其实ftp的地址是可以直接通过浏览器或者资源管理器进行访问的。通过浏览器访问非常不方便,不能直接下载整个文件夹,而且不能断点续传。
通过windows系统的资源管理器,也可以访问,那么就是这种文件夹的形式,这个看起来比较工整,可以直接拖拽文件夹,但是访问速度比较忙。
所以,还是强烈推荐ftp链接工具进行访问。

Filezilla下载

filezilla的下载和安装比较容易,直接搜索,然后下载安装即可。

#Filezilla官网:
https://filezilla-project.org/ 

实除了还有很多ftp链接工具,比如winscp,xftp,mobaxterm等,使用方法都类似。这里我们将利用Filezilla从ncbi下载人全基因组参考序列,和对应的gff文件。

一、打开Filezilla,添加ncbi ftp地址;
ftp://ftp.ncbi.nlm.nih.gov ,ftp默认端口号为21,可以不填写,ncbi默认可以采用匿名用户访问,什么都不用填。

10c0198fe6d8dbfe115c921b5495b9d1.png

二、在ncbi ftp中寻找要下载的数据;
直接双击genomes目录,这里面包含了很多内容,如果想知道具体的目录内容,可以查看README文件。然后进入refseq目录,人属于脊椎动物的哺乳动物,在vertebrate_mammalian目录下,然后是Homo_sapiens目录中,表示智人。NCBI比较讨厌的是,这些目录结构经常换,过几天你按照这个目录结构也许就找不到了。

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/

f6ae79bd32631d6cb5035a8ad03a0fb2.png

其实人基因组直接在genomes目录下就有一个H_sapiens目录,也可以直接从这里下载。

三、直接拖拽到本地即可。
注意人染色体有多个版本,确定是自己需要的版本,其他基因组下载方法类似。

2877e7d2e31d8f60e1cdde85ddd40c42.png

---------- END ----------

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值