cath数据库fasta备注_ncbi nr 数据库提取fasta

在nr库这里挣扎许久了。数据库太大,下载和建库都很困难。下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的blast,默认是单线程,需要另外configure)。

一、直接下载nr blast库

wget -c ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gz

因为是拆分好的,下载速度还可以,完全依赖网速。

ascp也许更快吧:NR数据库简介

二、blastp nr 注释

blastp \

-db /home/cheng/Databases/NCBI_nr/nr \

-query Result/prokka/genome_prokka.faa \

-out Result/nr/genome_nr.txt \

-qcov_hsp_perc 80 \

-outfmt 6 \

-evalue 1e-5 \

-num_threads 52

问题1:无法使用多线程

问题2:blastp版本不够。BLAST Database error: Error: Not a valid version 4 database.

源码安装最新版:源码安装blast+及安装和配置GPU-Blast

方案1:获取fasta自行建库

方案2:使用新版blast

试试方案1:

三、从nr blast 库提取fasta

blastdbcmd -db nr -entry all -dbtype prot -out test.fa

BLAST Database error: Error: Not a valid version 4 database

源码安装新版blast,重新blastdbcmd

/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa

nr.04数据库不全,尝试ascp重新下载

四、ascp下载nr.*.tar.gz

部分nr库不全,重新下载,用ascp

Aspera,超高速下载测序数据

wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

tar xzvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

sh ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

export PATH=$PATH:/home/cheng/.aspera/connect/bin # 添加bin到系统环境变量,每个终端都要用一下

cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/ # 复制文件下的密钥文件到主目录下

cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/

sudo cp aspera-license /usr/local/bin/ # etc目录下,复制证书到系统目录下 (需要root权限)

下载不全的nr

参数:

-i PRIVATE-KEY-FILE Private-key file name (id_rsa) 私有密钥文件名称

-l MAX-RATE Max transfer rate 最大传输速率

-T Disable encryption 禁用加密

-k RESUME-LEVEL Resume criterion: 0,3,2,1 断点续传

-P SSH-PORT TCP port used for SSH authentication 一般是33001?

ascp -i ~/asperaweb_id_dsa.putty -anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./

e5947814b50d?utm_campaign=haruki

ascp -i ~/asperaweb_id_dsa.openssh -QTr -l 6000m anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./

e5947814b50d?utm_campaign=haruki

终究还是用了wget...

五、nr blast 库提取fasta

/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa

查看结果,包含:

序列ID,名称,物种

>EFG1759503.1 decarboxylating NADP(+)-dependent phosphogluconate dehydrogenase [Escherichia coli]

LKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGFNFIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDG

EPCVTYIGADGAGHYVKMVHNGIEYGDMQLIAEAYSLLKGGLNLTNEELAQTFTEWNNGELSSYLIDITKDIFTKKDEDG

NYLVDVILDEAANKGTGKWTSQSALDLGEPLSLITESVFARYISSLKEQRVAASKVLSGPQAQPAGDKGEFIEKVRRALY

LGKIVSYAQGFSQLRAASEEYNWDLNYGEIAKIFRAGCIIRAQFLQKITDAYIENPQIANLLLAPYFKQIADNYQQALRE

VVAYAVQNGIPVPTFAAAVAYYDSYRAAVLPANLIQAQRDYFGAHTYKRIDKEGVFHTEWL

>KJX92028.1 hypothetical protein TI39_contig5958g00003 [Zymoseptoria brevis]

。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值