NCBI CD-Search的本地版安装与使用(windows)

NCBI CD-Search的本地版使用

参考文献 NCBI’s Conserved Domain Database and Tools for Protein Domain Analysis

##NCBI的保守结构域数据库以及蛋白结构域分析工具 重点看RPS-BLAST and rpsbproc部分
https://currentprotocols.onlinelibrary.wiley.com/doi/full/10.1002/cpbi.90

Basic Protocol 1: CD-search

Basic Protocol 2: Batch CD-search

Basic Protocol 3: Standalone RPS-BLAST and rpsbproc
Standalone“单机版”,应该指的是这些工具可以在没有网络连接的情况下,独立于任何在线服务,在个人计算机或本地服务器上运行的版本。

Use Standalone RPS-BLAST and rpsbproc(https://ftp.ncbi.nih.gov/pub/mmdb/cdd/rpsbproc/e) (这个网址好像失效了)to compute and retrieve(检索) domain annotation programmatically. Basic Protocol 3 demonstrates how to identify protein domains for a batch of protein queries of greater than 4000.演示了如何为超过4000个蛋白质查询序列批量识别鉴定蛋白质结构域。

Hardware硬件配置

An internet-connected Linux, Windows, or Mac workstation
需要一台连接互联网的工作电脑平台,操作系统可以是 Linux、Windows 或 Mac

Software软件要求
  • Web browser, for downloading files from FTP site 浏览器,用于从FTP站点下载文件
  • The tar utility tar解压工具, to extract files from compressed archive(打包的,指的是包含了一个或多个文件或文件夹的文件的) files: A built-in(内置的)utility for the Linux, Windows, and Mac platforms, found in Shell (Linux), Windows Command Processor (Windows), and Terminal (Mac), respectively. 一个内置于 Linux、Windows 和 Mac 平台的工具,分别在 Linux 的 Shell、Windows 的命令处理器和 Mac 的终端中可以找到
  • The gzip utility, required to decompress files: For the Linux and Mac platforms, commonly a built-in utility by default; for the Windows platform, the specified software, including 7-Zip, WinZip, and others, can be used gzip 工具,用于解压文件:对于 Linux 和 Mac 平台,通常默认内置此工具;对于 Windows 平台,需要使用指定的软件,包括 7-Zip、WinZip 等来进行操作。
  • The curl utility, for downloading files from FTP site (optional): For the Linux platform, commonly installed by default; for Windows and Mac platforms, can be downloaded from
    (https://curl.haxx.se/download.html) and installed manually curl 工具,用于从 FTP 站点下载文件(可选):对于 Linux 平台,通常默认安装;对于 Windows 和 Mac 平台,可以从 https://curl.haxx.se/download.html 下载并手动安装。
  • Specific FTP software, for downloading files from FTP site more efficiently (optional): e.g., FileZilla 特定的 FTP 软件,用于更高效地从 FTP 站点下载文件(可选):例如,FileZilla。
Files

Input queries in FASTA format: i.e., protein or nucleotide sequences

Preliminary Steps

Detailed instructions on how to retrieve the RPS-BLAST executable and rpsbproc utility and run them locally can be found in the rpsbproc README file at the CDD FTP site (https://ftp.ncbi.nih.gov/pub/mmdb/cdd/rpsbproc/README).

The standalone RPS-BLAST packaged with the pre-built BLAST executables (“rpsblast” for protein queries and “rpstblastn” for nucleotide queries) is available at the NCBI BLAST FTP site and as part of the NCBI C++ toolkit distribution. Detailed documentation for BLAST at NCBI, including RPS-BLAST, can be found in BLAST® Command Line Applications User Manual (https://www.ncbi.nlm.nih.gov/books/NBK279690/). Run the command rpsblast with argument “-help” to check the usage information (Figure 17).
关于如何检索 RPS-BLAST 可执行文件和 rpsbproc 工具,并在本地运行它们的详细说明,可以在 CDD FTP 站点的 rpsbproc README 文件中找到(https://ftp.ncbi.nih.gov/pub/mmdb/cdd/rpsbproc/README)。

独立版的 RPS-BLAST,连同预构建的 BLAST 可执行文件(对蛋白质查询是 “rpsblast”,对核苷酸查询是 “rpstblastn”)一起,可在 NCBI BLAST FTP 站点及 NCBI C++ 工具包发行版中获取。包括 RPS-BLAST 在内的 NCBI BLAST 的详细文档,可以在 BLAST® 命令行应用用户手册中找到(https://www.ncbi.nlm.nih.gov/books/NBK279690/)。运行命令 rpsblast 并添加参数 “-help” 来检查使用信息(见图 [17])。
Figure [17]
For each query sequence, standalone RPS-BLAST lists the conserved domain models that scored below a certain E-value threshold (by default set to 10), sorted by E-value. For each hit, information such as the conserved domain’s PSSMID, a set of scores (E-value, BitScore, etc.), and the sequence alignment between the conserved domain and the query sequence can be returned. In order to run the rpsbproc utility, the output file generated by RPS-BLAST executables needs to be stored in ASN.1 format, using “.asn” as the filename extension.对于每一个查询序列,独立版 RPS-BLAST 会列出那些 E-value 低于特定阈值(默认设置为10)的保守域模型,并按 E-value 进行排序。对于每一个命中结果,可以返回诸如保守域的 PSSMID、一组分数(E-value, BitScore 等)以及保守域和查询序列之间的序列对齐信息。为了运行 rpsbproc 工具,由 RPS-BLAST 可执行文件生成的输出文件需要以 ASN.1 格式存储,使用 “.asn” 作为文件扩展名。

The rpsbproc command line utility is an addition to the standalone version of RPS-BLAST. It post-processes the RPS-BLAST output to give a compact and nonredundant view of the search results (such as would be returned by the Batch CD-Search). rpsbproc reads the output of rpsblast/rpstblastn and fills in domain superfamily and functional site information, as well as structural motifs, for each region of the sequence. It then re-sorts the hits and calculates a set of nonredundant representative hits. The result is presented in a tab-delimited flat file and can be looked at either programmatically or manually. Run rpsbproc command with argument “-help” to check the usage information (Figure 18).rpsbproc 命令行工具是独立版 RPS-BLAST 的一个补充。它对 RPS-BLAST 的输出进行后处理,以提供一个紧凑且非冗余的搜索结果视图(类似于批处理 CD-搜索返回的结果)。rpsbproc 读取 rpsblast/rpstblastn 的输出,并为序列的每个区域填充域超家族和功能位点信息,以及结构基序。然后,它重新排序命中结果,并计算一组非冗余的代表性命中结果。结果以制表符分隔的平面文件形式呈现,可以通过编程方式或手动查看。运行 rpsbproc 命令并添加参数 “-help” 来检查使用信息(见图 18)。
图 18
To run RPS-BLAST locally and use rpsbproc to process the output, you must first collect the applications needed. You can download the pre-built rpsblast, rpstblastn, and rpsbproc binaries from the NCBI FTP site, which are directly executable on Windows and Linux platforms, with no complex installation required. For those who need (or desire) to build these utilities locally, you can download the source code tarballs from the NCBI FTP site. Please note that these programs are NCBI C++ toolkit applications and require the NCBI C++ toolkit to build. Please follow the README file to build these utilities locally. For Linux and Mac users, please refer to the rpsbproc README file for detailed instruction to run standalone RPS-BLAST and rpsbproc utility. Below are step-by-step instructions for running these executables on a Windows platform.要在本地运行 RPS-BLAST 并使用 rpsbproc 处理输出,您首先需要收集所需的应用程序。您可以从 NCBI FTP 站点下载预构建的 rpsblast、rpstblastn 和 rpsbproc 二进制文件,这些文件可以直接在 Windows 和 Linux 平台上执行,无需复杂的安装过程。对于那些需要(或希望)在本地构建这些工具的用户,您可以从 NCBI FTP 站点下载源代码压缩包。请注意,这些程序是 NCBI C++ 工具包应用程序,并且需要 NCBI C++ 工具包来构建。请按照 README 文件的指示在本地构建这些工具。对于 Linux 和 Mac 用户,请参阅 rpsbproc README 文件,以获取运行独立版 RPS-BLAST 和 rpsbproc 工具的详细指导。以下是在 Windows 平台上运行这些可执行文件的分步指导。

具体步骤 Procedure

1. Download the rpsbproc README file (https://ftp.ncbi.nih.gov/pub/mmdb/cdd/rpsbproc/README) to your project folder for reference in the following steps.
下载 rpsbproc README 文件(https://ftp.ncbi.nih.gov/pub/mmdb/cdd/rpsbproc/README)到您的项目文件夹中,以供后续步骤参考。

项目文件夹的示例被标记为 cd-search,如图 19 所示。

An example of the project folder labeled cd-search is shown in Figure 19.

Figure [19]

2. 从 NCBI BLAST FTP 站点(https://ftp.ncbi.nih.gov/blast/executables/LATEST/)下载 RPS-BLAST 可执行文件(ncbi-blast-2.9.0±x64-win64.tar.gz)到项目文件夹中。然后,打开 Windows 命令处理器(cmd.exe)并导航到项目文件夹,运行以下命令解压已下载的文件,这将在项目文件夹中创建一个名为 ncbi-blast-2.9.0+ 的文件夹。

tar -zxf "ncbi-blast-2.9.0+-x64-win64.tar.gz"

(现在是2.15了,文章是2019年的)

导航到 ncbi-blast-2.9.0+ 中的 bin 子文件夹,并将 rpsblast.exe 和 rpstblastn.exe 可执行文件复制到项目文件夹中。
3. 从 NCBI CDD FTP 站点(https://ftp.ncbi.nih.gov/pub/mmdb/cdd/rpsbproc/)下载 rpsbproc 可执行文件(rpsbproc-0.5.0-x64-win.zip)到项目文件夹中。

在 Windows 命令处理器中,导航到项目文件夹并运行以下命令解压已下载的 zip 文件。

tar -zxf rpsbproc-0.5.0-x64-win.zip

现在,项目文件夹中有 rpsbproc.exe 和 rpsbproc.exe.manifest 文件。
4. 通过从 CDD FTP 站点(https://ftp.ncbi.nih.gov/pub/mmdb/cdd/little_endian/)下载预格式化的搜索数据库(文件)到项目文件夹下名为 db 的文件夹中,创建 RPS-BLAST 的搜索数据库。在当前 db 目录中使用以下命令分别解压文件:

tar -zxf Cdd_LE.tar.gz
tar -zxf Cdd_NCBI_LE.tar.gz
tar -zxf Cog_LE.tar.gz
tar -zxf Kog_LE.tar.gz
tar -zxf Pfam_LE.tar.gz
tar -zxf Prk_LE.tar.gz
tar -zxf Smart_LE.tar.gz
tar -zxf Tigr_LE.tar.gz

5. 通过从 CDD FTP 站点(https://ftp.ncbi.nih.gov/pub/mmdb/cdd/)下载域注释文件(下列所示)到数据文件夹中来创建数据文件夹。( Create the data folder by downloading the domain-annotation files (listed below) from the CDD FTP site (https://ftp.ncbi.nih.gov/pub/mmdb/cdd/) to the data folder.
)

bitscore_specific.txt
cddannot.dat.gz
cddannot_generic.dat.gz
cddid.tbl.gz
cdtrack.txt
family_superfamily_links

文件名带有“.gz”后缀的三个文件可以使用 Windows 中的 7-Zip 等软件解压缩。确保选择“在此处解压(Extract here)”将文件解压到当前数据文件夹中。

6. 将包含查询序列的 FASTA 文件放入项目文件夹。在这个示例中使用了 sequence.fasta 文件。
你的文件夹内容应该如图 19 所示。
图19

  1. 通过打开 Windows 命令处理器(cmd.exe)运行 RPS-BLAST。导航到项目文件夹并使用以下命令运行 RPS-BLAST。因为这个命令在 Windows 命令处理器上运行,所以使用了反斜杠。
rpsblast.exe -query sequence.fasta -db .\db\Cdd -evalue 0.01 -outfmt 11 -out sequence.asn

使用以下命令运行 rpsbproc 可执行文件,以注释 RPS-BLAST 生成的结果。

rpsbproc.exe -i sequence.asn -o sequence.out -e 0.01 -m rep

-m, --data-mode <String, full', rep’, std'> Select redundancy level of domain hit data. Valid options are "rep" (concise), "std"(standard) and "full" (all hits). Default to "rep" Default = rep’

查看结果。输出文件是制表符分隔的格式,可以用 WordPad、Excel 或类似的编辑器打开。
输出文件的示例应该如图 20 所示。
图 20 Results from running the rpsbproc utility on myosin sequences.
用RPS-BLAST 和 rpsbproc 来处理大量的蛋白质/核苷酸序列,并返回类似于批量 CD-搜索(基础协议 2)的注释数据,这些数据包括域命中、位点注释和结构基序。此外,它还允许你选择在自己的机器上本地运行 RPS-BLAST,并且可以选择使用自己的 PSSM 子集。

由 rpsbproc 工具生成的输出文件包含两个部分。第一部分显示程序信息、用于数据处理的参数,以及一个“模板”,解释数据表每一列的格式和内容。此部分的所有行都以“#”字符开始,以便程序可以将它们视为可以安全忽略的“注释”行。

第二部分,被称为数据部分,包含了预期被程序化处理的实际数据。所有列都用 制表符(“\t”)分隔。数据部分始终以 DATA 标记开始,并以 ENDDATA 标记结束。在这之间,可以有几个会话,每个会话都以 SESSION 标记开始,并以 ENDSESSION 标记结束。每个会话都被赋予一个顺序的唯一编号,称为会话 ID。每个会话由查询组成,查询是会话的单位块。每个单独的查询块包含三个可选部分,即域、位点和基序。数据部分的完整结构在图 21 中示出。域、位点和基序部分包含对应于 rpsbproc 输出文件第一部分中定义的列名的值行。例如,在域部分,每行代表一个域命中,包括以下信息:会话 ID;查询 ID;命中类型;PSSM ID;起始位置;结束位置;E-value;比特分数;访问号;简称;以及在 N 端、C 端或两者上对齐是否不完整;以及超家族 PSSM ID(类似于图 14 中显示的数据)。
图21
图14 Batch CD-Search: Downloading Domain hit results with the default parameters Target data: Domain Hits and Data mode: Concise for the myosin motor domain test set.

背景信息

蛋白质域通常与特定功能相关联,如酶催化或核酸结合,并且是分子进化的单位;通过比较序列分析,蛋白质域序列可以被组织成一个进化分类。CDD的精选域集合经常在可用的三维结构的帮助下被分类到非常细致的级别,并使用来自三维结构和其他信息(包括已发布的文献)的证据手动注释功能位点。了解蛋白质的域信息可以为用户提供关于其感兴趣的蛋白质的丰富信息。在未分类或新颖蛋白质的情况下,这些域信息提供了关于蛋白质功能的重要线索,往往域注释是对新未描述蛋白质的分子和细胞功能的唯一可用提示。

除了来自内部整理努力的结果外,CDD还包含来自外部来源如Pfam的域模型。来自两个或更多资源的注释一致性为用户识别的域提供了信心,而它们之间的不一致——可能是不同的域边界定义这样的小问题,或者在同一查询区域识别不同功能域这样的更严重的情况——可能表明结果应该谨慎解读。

本文描述的三种 CD-搜索协议概述了用户提交单个蛋白或大批量蛋白的查询方法。这些搜索的结果——如域模型识别和访问号、查询上的域足迹(从-到区间)、E-values和分数、以及功能位点和相互作用的位置——对于大量查询可以以适合进一步处理的表格形式返回。

CDD最初在2002年文献中被描述(Marchler-Bauer等人,2002)。当时的版本v1.54包含了3693个模型,包括CDD内部整理、Pfam和SMART的贡献。CDD v3.17(2019年4月3日发布)包含来自所有源数据库的57242个总模型,其中14908个来自CDD的整理努力。

关键参数

由于这一共享资源的高峰使用率,CDD对批量 CD-搜索施加了4000序列的当前限制;您将被提示关于此上限在批量 CD-搜索页面上的任何未来变化。

为了演示基础协议1到3的各种 CD-搜索,我们提供了测试集。批量 CD 搜索测试集源自2015年2月5日发布的内部整理的MYSc肌动蛋白电机域中间模型(cd00124)的cd01353电机域层次结构。独立 RPS-Blast 和 rpsbproc 测试集是一个FASTA文件,包含了2019年8月5日使用搜索词肌动蛋白 AND “金黄色葡萄球菌”在 NCBI 蛋白质数据库中搜索返回的所有蛋白质记录(https://www.ncbi.nlm.nih.gov/protein/?term=myosin+AND+“Staphylococcus+aureus”)。在 CDD FTP 站点可用的 rspbproc 工具是2015年6月29日发布的版本。搜索是在2019年8月对2019年4月3日发布的CDD数据库版本3.17进行的。请注意,使用CDD数据库、RPS-BLAST和rpsbproc工具的更新版本可能会导致略有不同的结果。

CDD 预测您感兴趣的蛋白质的域,并提供关于其功能的重要线索。为了进一步分析的选项,鼓励读者从域架构 ID 链接在 CD-搜索结果页面(图 5)启动 SPARCLE(亚家族蛋白结构标签引擎;参见基础协议 1 的结果理解指南),以进一步调查蛋白分类。SPARCLE 是一个 CDD 资源,允许基于保守域架构对蛋白家族进行比较分析,并对已按其特征保守域架构分组的蛋白序列进行功能特征化和标签。SPARCLE 也可以直接从 SPARCLE 主页访问(https://www.ncbi.nlm.nih.gov/sparcle)。例如,您可以在 SPARCLE/高级搜索构建器中使用“Myosin”作为名称字段进行搜索。通过点击 SPARCLE 结果页面上的问号框,可以获得详细的 SPARCLE 帮助。

本文中的三种 CD-搜索协议描述了查询单个蛋白和大量蛋白,通过其网络接口或以编程方式与 CDD 互动。您也可能想尝试批量 CD-搜索作为脚本数据检索的接口。查询可以作为 HTTP GET 或 HTTP POST 请求提交。HTTP GET 请求作为 URL 提交。程序执行搜索,收集所有数据到一个主数据结构中,并提取您请求的最终输出的信息子集。有效参数、HTTP GET 请求的 URL 示例以及 HTTP POST 操作的示例 PERL 脚本可以在:https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd_help.shtml#BatchRPSBWebAPI找到。

时间考虑

请注意,与运行 CD-搜索和批量 CD-搜索不同,运行 RPSBLAST 是耗时的。平均每处理一个蛋白质或核苷酸序列需要2秒;因此,例如,如果您的 FASTA 文件中有10,000个序列,可能需要5到6小时才能完成。然而,rpsbproc 处理相当快:处理10,000个蛋白序列的 RPS-BLAST 输出只需超过30秒。

  • 21
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值