生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

1. TaxonKit和ncbi-genome-download简介

TaxonKit是一款小巧、高效、实用的NCBI分类学数据命令行工具集

NCBI Taxonomy数据库,包含了NCBI所有核酸和蛋白序列数据库每条序列对应的物种名称与分类学信息, 大多数生态学研究对物种组成的描述都是基于NCBI Taxonomy数据库。

TaxonKit详细使用方法参考:https://bioinf.shenwei.me/taxonkit/chinese/

ncbi-genome-download工具能根据输入的taxid或物种名称直接从NCBI上批量下载序列的软件,支持下载多种格式。

2. taxonkit 与 ncbi-genome-download安装

使用conda安装。

# taxonkit安装
conda install taxonkit -y

# NCBI上批量下载序列软件
conda install -c bioconda ncbi-genome-download -y

3. NCBI Taxonomy 数据文件下载

# 按此命令创建,不要自定义路径
mkdir -p $HOME/.taxonkit  
cd $HOME/.taxonkit  

# 文件大小约50Mb
wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz   

# 解压
tar -zxvf taxdump.tar.gz

# 解压后文件
# citations.dmp  delnodes.dmp  division.dmp  gc.prt  gencode.dmp  images.dmp  
# merged.dmp  names.dmp  nodes.dmp  readme.txt  taxdump.tar.gz

文件存储信息

4. taxonkit list + taxonkit name2taxid + taxonkit lineage用法

taxonkit命令

4.1 taxonkit list

taxonkit list 用于列出指定TaxID所在分类学单元(taxon)的子树(subtree)的所有taxon的TaxID,可选显示名称和分类学水平。

# -i, --ids string:指定 TaxId(多个值用逗号分隔)。
# -n, --show-name:输出科学名称
# -r, --show-rank:输出分类级别
# -j, --threads int:指定使用的 CPU 数,默认为 4

# 查询人类和小鼠分类学信息
taxonkit list -i 9606,10090 -n -r -j 4

# 9606 [species] Homo sapiens
#   63221 [subspecies] Homo sapiens neanderthalensis
#   741158 [subspecies] Homo sapiens subsp. 'Denisova'

# 10090 [species] Mus musculus
#   10091 [subspecies] Mus musculus castaneus
#   10092 [subspecies] Mus musculus domesticus
#   35531 [subspecies] Mus musculus bactrianus
#   39442 [subspecies] Mus musculus musculus
#   46456 [subspecies] Mus musculus wagneri
#   57486 [subspecies] Mus musculus molossinus
#   80274 [subspecies] Mus musculus gentilulus
#   116058 [subspecies] Mus musculus brevirostris
#   179238 [subspecies] Mus musculus homourus
#   477815 [subspecies] Mus musculus musculus x M. m. domesticus
#   477816 [subspecies] Mus musculus musculus x Mus musculus castaneus
#   947985 [subspecies] Mus musculus albula
#   1266728 [subspecies] Mus musculus domesticus x M. m. molossinus
#   1385377 [subspecies] Mus musculus gansuensis
#   1643390 [subspecies] Mus musculus helgolandicus
#   1879032 [subspecies] Mus musculus isatissus
#   3109569 [subspecies] Mus musculus domesticus x Mus musculus castaneus

获取某个类别(比如细菌、病毒、某个属等)下所有的TaxID, 用来从NCBI nt/nr中获取对应的核酸/蛋白序列

# 查询结果保存至文本文件中
# 所有细菌的TaxID
# –ids 给定的taxid,多个时以逗号分割
# –show-name 输出科学命名
# –show-rank 输出分类等级
# -j 线程数,默认是2
taxonkit list --show-rank --show-name --ids 2 > ids.2.list

less -S ids.2.list

4.2 taxonkit name2taxid

物种拉丁名转化为taxid。

# 小鼠taxid
echo "mouse"|taxonkit name2taxid -r
# mouse	10088	genus
# mouse	10090	species


# 枯草杆菌
echo "bacillus subtilis"|taxonkit name2taxid -r
# bacillus subtilis	1423	species


# 大肠杆菌
echo "escherichia coli"|taxonkit name2taxid -r
# escherichia coli	562	species


# 假单胞菌
echo "pseudomonas aeruginosa"|taxonkit name2taxid -r
pseudomonas aeruginosa	287	species


# 白色葡萄球菌
echo "staphylococcus aureus"|taxonkit name2taxid -r
# staphylococcus aureus	1280	species

4.3 taxonkit lineage

taxonkit lineage 可根据输入文件提供的TaxID列表快速计算lineage,并可选提供名称,分类学水平,以及谱系对应的TaxID。

echo 10090|taxonkit lineage -d ':' -t -r
# 10090	cellular organisms:Eukaryota:Opisthokonta:Metazoa:Eumetazoa:Bilateria:Deuterostomia:Chordata:Craniata:Vertebrata:Gnathostomata:Teleostomi:Euteleostomi:Sarcopterygii:Dipnotetrapodomorpha:Tetrapoda:Amniota:Mammalia:Theria:Eutheria:Boreoeutheria:Euarchontoglires:Glires:Rodentia:Myomorpha:Muroidea:Muridae:Murinae:Mus:Mus:Mus musculus	131567:2759:33154:33208:6072:33213:33511:7711:89593:7742:7776:117570:117571:8287:1338369:32523:32524:40674:32525:9347:1437010:314146:314147:9989:1963758:337687:10066:39107:10088:862507:10090	species

5. ncbi-genome-download下载物种基因组序列

# 下载taxid=10090的mouse 完整基因组
ncbi-genome-download -t 10090 vertebrate_mammalian \
-l complete -F fasta -o mouse  --flat-output


# 下载假单胞菌属(Pseudomonas)中所有的基因组序列(全部完整和染色体的基因组)
ncbi-genome-download -g "Pseudomonas" bacteria \
-l "complete,chromosome" --flat-output -o Pseudomonas


# 根据taxid下载单个或多个菌株基因组序列,大肠杆菌
ncbi-genome-download --taxids 386585 bacteria \
-l complete -F fasta --flat-output -o Escherichia_coli_O157


# 枯草杆菌基因组全部基因组序列下载
ncbi-genome-download --taxids 1423 bacteria \
-l complete -F fasta --flat-output -o bacillus_subtilis

参数说明:

-s:选择数据库(genbank,refseq),默认refseq数据库;
-F:下载基因组的格式,支持多种格式同时下载,逗号隔开,默认是genbank格式;
-l:序列组装程度,支持多种格式同时下载,逗号隔开;
-g:下载序列的属;
-S:下载的的物种名称,用逗号隔开,支持文本输入(每行一个菌种名称);
-o:保存结果的文件夹/文件名称;
-r:失败时重新连接的次数,默认是0次;
–flat-output:下载的文件存放至一个目录中,不创建新的子文件;

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值