synthaser 笔记

synthaser使用说明 笔记

documentation

安装

安装 RPS-BLAST 和 rpsbproc
RPS-BLAST 是 NCBI 的 BLAST+ 工具包中的一个程序。这个工具包可以直接从 NCBI 的 FTP 站点下载,或者从你的发行版仓库中安装,例如在 Ubuntu 中可以使用以下命令安装:sudo apt install ncbi-blast+。

安装 rpsbproc,请按照以下步骤操作:

从 CDD FTP 站点下载适合您系统的压缩包。
解压缩文件。
获取 rpsbproc 所需的数据文件,可以通过运行 utils/getcdddata.sh 脚本获取,或者直接从 FTP 站点下载,具体内容请参阅 README 文件(见:域注释文件)。该程序不要求您下载所有的域数据库。因此,如果采用前者,可以在必要的文件位于 data/ 目录后取消运行,然后删除 db/ 目录和数据库的 .tar.gz 文件。
确保 rpsbproc 的可执行文件位于您系统的 $PATH 环境变量中。这是 synthaser 的一个要求,如果无法在 $PATH 中直接找到 rpsbproc(即在终端中只需输入 ‘rpsbproc’ 就能访问),它会报错。

在搜索前使用配置模块进行设置

NCBI 要求您在使用其服务之前提供某种身份验证信息,以防止滥用。这可以是一个电子邮件地址,或者更近期的,一个 API 密钥(https://ncbiinsights.ncbi.nlm.nih.gov/2017/11/02/new-api-keys-for-the-e-utilities/)。
您可以使用配置模块为 synthaser 搜索设置这些参数(您只需做一次!)。这个模块会保存一个 config.ini 文件,在您的操作系统存储配置文件的地方(例如,在 Linux 中会保存在 ~/.local/config/synthaser)。当您在 synthaser 中运行远程搜索时,它会首先检查是否能找到这个文件,然后查看是否保存了电子邮件地址或 API 密钥;如果找不到,synthaser 会报错。

设置电子邮件地址:

$ synthaser config --email "foo@bar.com"

或者设置 API 密钥:

$ synthaser config --api_key <your API key>

使用搜索模块运行 synthaser 搜索(search)

配置完成后,运行 synthaser 搜索非常简单:

synthaser search --query_file sequences.fasta

这将会取得 sequences.fasta 中的所有序列,并启动一个远程 CD-搜索。

注意
synthaser 使用的大多数参数都有简短形式,这些可以在帮助菜单中找到(例如 synthaser search --help)。例如,这里的 --query_file 的简短版本是 -qf。另外,您可以使用 -qi/--query_ids 参数,仅使用一组 NCBI 标识符开始搜索。例如:

synthaser search -qi KAF4294870.1 KAF4294328.1 KAF4293514.1

这将检索每个序列并开始一个远程 CD-搜索。您可以使用几个可选参数来控制 synthaser 将生成的输出。要生成您的序列的 synthaser 图表,请添加 -p/--plot 参数,并可选地指定一个名称来生成一个 HTML 文件:

synthaser search -qf sequences.fasta -p <plot.html>

然后图表将直接在您的网络浏览器中打开。
您可以使用 -json, --json_file 参数保存包含 synthaser 搜索数据的文件:

synthaser search -qf sequences.fasta -json session.json

这在较大的搜索中特别有用,因为如果您想生成新的可视化或输出表格,搜索就不必完全重做。如果指定的文件不存在,synthaser 将创建它;如果文件已存在,synthaser 将尝试加载它。

默认输出将显示您的查询序列及其结构域,按分类分组。例如,使用上述 --query_ids 的搜索产生:

PKS --> Type I --> Partially-reducing
------------------------------------- KAF4294870.1 KS-AT-DH-MT-KR-ACP

Thiolase
-------- KAF4293514.1 KS KAF4294328.1 KS

您可以使用 -lf, --long_form 参数使其表格化,将产生如下的逗号分隔输出

Synthase,Length (aa),Architecture,Classification
KAF4294870.1,2445,KS-AT-DH-MT-KR-ACP,PKS|Type I|Partially-reducing
KAF4294328.1,413,KS,Thiolase KAF4293514.1,419,KS,Thiolase

其中每一行包含序列、其长度、结构域和分类。这些可以直接导入到电子表格软件中。
另一个非常有用的参数是 --cdsid。这允许您在稍后时间恢复或加载 CD-搜索运行。CDSID(CD-搜索标识符)由 synthaser 在每次搜索开始时报告,并采取如下形式:

QM3-qcdsearch-XXXXXXXXXXXXXXX-YYYYYYYYYYYYYYYY

例如,在上述搜索的输出中:

[14:57:52] INFO - Starting synthaser [14:57:56] INFO - Launching new
CD-Search run [14:57:58] INFO - Run ID:
QM3-qcdsearch-894E2B07233244A-1C6342BEDF36CB85

当我想要表格输出时,我可以简单地重新使用 CDSID:

synthaser search \
        --query_ids KAF4294870.1 KAF4294328.1 KAF4293514.1 \
        --cdsid QM3-qcdsearch-894E2B07233244A-1C6342BEDF36CB85 \
        --long_form

CD-搜索参数可以使用以下参数进行更改:

参数 描述
--cdsid CD-搜索运行 ID (例如 QM3-qcdsearch-XXXXXXXXXXXXXXX-YYYYYYYYYYYYYYYY)
--smode 搜索模式 (auto, prec 或 live; 默认 auto)
--useid1 如果找不到,在档案数据库中查找序列 (默认 true)
--compbasedadj 使用校正后的计分 (默认 1)
--filter 从查询中过滤出成分偏见区域 (默认 true)
--evalue 最大 E-value (默认 3)
--maxhit 返回的最大命中(hits)数 (默认 500)
--dmode 报告的命中(hits)级别 (full, rep 或 std; 默认 full)

Synthaser 图表

Synthaser 图表直观易懂,但仍值得简单介绍一下。以下是上述搜索结果的图表呈现方式:
查询序列按比例绘制,彩色框表示找到的结构域。序列按分类分组,分类的注释条自动绘制在适当位置。当你有更多覆盖更多分类的序列时,这种显示方式看起来更加美观!

将鼠标悬停在序列的结构域框上时,会显示一个工具提示菜单:

这将显示最佳结构域家族命中的摘要,并提供到 NCBI 数据库相应条目的链接。您还可以通过点击底部的按钮复制整个查询或特定结构域的氨基酸序列。

图例中包含了您所有序列中发现的结构域列表,旁边是对应的颜色框。单击该框并选择另一种颜色,即可简单地更改颜色。

通过点击其名称,可以隐藏序列。如果图表中包含特定结构域最后一次出现的序列被隐藏,那么该结构域也将自动从图例中移除。

图表元素的大小和位置可以通过图表右侧下拉菜单中的设置来控制。在上图中,唯一的默认更改是最大序列长度(以像素为单位);默认设置为600像素。

您可以使用下拉菜单底部的“下载结构域序列”部分,从您的序列中生成包含特定结构域类型的 FASTA 文件。只需选择一个结构域类型并点击“下载!”按钮。

一旦您对图形满意,可以通过点击菜单顶部的“保存 SVG”按钮下载一个 SVG 图像文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值