SEQ 10. 真核生物蛋白质的亚细胞定位(DeepLoc)

700fee198553b9c03e05ecdb71881314.png

简  介

蛋白质亚细胞定位的预测对蛋白质组学研究具有重要意义。在这里,我们建议对流行的工具 DeepLoc 进行更新,以进行多定位预测并改进性能和可解释性。为了进行训练和验证,我们整理了具有严格同源性分区的真核和人类多位置蛋白质数据集,并丰富了从文献中汇编的排序信号信息。我们通过使用预训练的蛋白质语言模型在 DeepLoc 2.0 中实现了最先进的性能。它的另一个优点是它使用序列输入而不是依赖较慢的蛋白质图谱。我们提供了两种更好的可解释性方法:沿着序列的注意力输出和对九种不同类型的蛋白质分选信号的高度准确预测。我们发现注意力输出与排序信号的位置密切相关。

82657c6f841ceef3ab33dc569bd8879c.png

分析流程

DeepLoc2.0使用基于转换器的蛋白质语言模型对输入氨基酸序列进行编码。然后利用可解释的注意力池机制生成序列表示。最后后,两个预测头利用该表示来预测的多个标签,包括10类亚细胞定位和9类分类信号预测任务。

DeepLoc 2.0是一个多标签预测器,这意味着能够预测任何给定蛋白质的一个或多个定位。它可以区分10个不同的定位:细胞核,细胞质,细胞外,线粒体,细胞膜,内质网,叶绿体,高尔基体,溶酶体/液泡和过氧化物酶体。此外,DeepLoc2.0可以预测对亚细胞定位预测有影响的排序信号的存在。

b2a637b94feb326ef6c32c457f5c0e77.png

文件准备

这个输入文件只有一个文件可以是蛋白序列文件,例如:

>GLR1_DROME Glutamate receptor 1 OS=Drosophila melanogaster GN=GluRIA PE=1 SV=2
MHSRLKFLAYLHFICASSIFWPEFSSAQQQQQTVSLTEKIPLGAIFEQGTDDVQSAFKYAMLNHNLNVSSRRFELQAYVDVINTADAFKLSRLICNQFSRGVYSMLGAVSPDSFDTLHSYSNTFQMPFVTPWFPEKVLAPSSGLLDFAISMRPDYHQAIIDTIQYYGWQSIIYLYDSHDGLLRLQQIYQELKPGNETFRVQMVKRIANVTMAIEFLHTLEDLGRFSKKRIVLDCPAEMAKEIIVQHVRDIKLGRRTYHYLLSGLVMDNHWPSDVVEFGAINITGFRIVDSNRRAVRDFHDSRKRLEPSGQSQSQNAGGPNSLPAISAQAALMYDAVFVLVEAFNRILRKKPDQFRSNHLQRRSHGGSSSSSATGTNESSALLDCNTSKGWVTPWEQGEKISRVLRKVEIDGLSGEIRFDEDGRRINYTLHVVEMSVNSTLQQVAEWRDDAGLLPLHSHNYASSSRSASASTGDYDRNHTYIVSSLLEEPYLSLKQYTYGESLVGNDRFEGYCKDLADMLAAQLGIKYEIRLVQDGNYGAENQYAPGGWDGMVGELIRKEADIAISAMTITAERERVIDFSKPFMTLGISIMIKKPVKQTPGVFSFLNPLSQEIWISVILSYVGVSFVLYFVTRFPPYEWRIVRRPQADSTAQQPPGIIGGATLSEPQAHVPPVPPNEFTMLNSFWYSLAAFMQQGCDITPPSIAGRIAAAVWWFFTIILISSYTANLAAFLTVERMVAPIKTPEDLTMQTDVNYGTLLYGSTWEFFRRSQIGLHNKMWEYMNANQHHSVHTYDEGIRRVRQSKGKYALLVESPKNEYVNARPPCDTMKVGRNIDTKGFGVATPIGSPLRKRLNEAVLTLKENGELLRIRNKWWFDKTECNLDQETSTPNELSLSNVAGIYYILIGGLLLAVIVAIMEFFCRNKTPQLKSPGSNGSAGGVPGMLASSTYQRDSLSDAIMHSQAKLAMQASSEYDERLVGVELASNVRYQYSM

在线分析

在线网址[DeepLoc]https://services.healthtech.dtu.dk/services/DeepLoc-2.0/),在线使用还是非常简单,序列少可以优先选择在线操作。

965abcdb14acf22c617aeda688673a40.png

线上分析对数据量要求有一定局限性:

粘贴或上传蛋白质序列以fasta格式预测亚细胞定位。最多允许500个序列。根据所选择的模型,每个序列的预测可能需要几秒钟。蛋白质序列应不少于10个且不多于6000个氨基酸。请注意,长度超过4000(慢模式)或1022(快模式)的序列将被截断。截断发生在序列的中间。

粘贴序列测试结果:

f7cd1c69c420e284b20a4d270f81f512.png

f03f243295dfdd3bf9b837cab54c7cc9.png

本地分析

软件包安装

软件包下载需要输入邮箱,这里由于没有学院类邮箱,

723c43af6b22a1b0d7091fb874cdd957.png

因此可以考虑在GitHub上DeepLoc-2.0下载,主要是python的编写可以下载到脚本就可以。然后解压文件,可以看到包括的文件有:

055c69c38588bbe1b00a974155ea3b3c.png

“data_files”文件夹包含用于训练

  1. multisub_5_partitions_unique.csv:用于亚细胞定位的注释SwissProt序列、标签和分区;

  2. multisub_ninesignals.pkl, sorting_signals.csv:注释的SwissProt序列和排序信号注释;

  3. 处理FASTA文件以生成嵌入。

模型有两种型号,称为Fast (ESM1b)和Accurate (ProtT5),指的是其中之一。

安装软件包需要conda环境,提前配置即可。

conda env create -f environment.yml

测试是否安装成功:

usage: train_sl.py [-h] [-m {Accurate,Fast}]

optional arguments:
  -h, --help            show this help message and exit
  -m {Accurate,Fast}, --model {Accurate,Fast}
                        Model to use.
usage: train_ss.py [-h] [-m {Accurate,Fast}]

optional arguments:
  -h, --help            show this help message and exit
  -m {Accurate,Fast}, --model {Accurate,Fast}
                        Model to use.

实际操作

1. 参数说明

测试数据分两个步骤:

第一步

  1. 生成和存储嵌入更快的训练。注:约30- 40gb的h5文件存储在“data_files/embeddings”中;

  2. 训练亚细胞定位和可解释注意力;

  3. 为排序信号预测生成预测和中间表示;

  4. 在SwissProt CV数据集上计算指标。

python3 train_sl.py --model <MODEL-TYPE>

第二步

  1. 训练排序信号预测;

  2. 在SwissProt CV数据集上预测和计算指标。

python3 train_ss.py -h --model <MODEL-TYPE>
2. 实际操作命令如下:

测试例子来自在线分析上的一个序列,基于蛋白质基础模型的多标签亚细胞定位与分类信号预测。

结果解读

生产结果文件:

Protein_ID	Localizations	Signals	Cytoplasm	Nucleus	Extracellular	Cell membrane	Mitochondrion	Plastid	Endoplasmic reticulum	Lysosome/Vacuole	Golgi apparatus	Peroxisome
GLR1_DROME	Cell membrane	Signal peptide|Transmembrane domain	0.164700001	0.041000001	0.039799999	0.795400023	0.034600001	0.139799997	0.282599986	0.527100027	0.28459999	0.0462

以及排序信号重要性显示了查询蛋白中对预测具有较高重要性且与排序信号高度相关的位置的标志状图。

1fb819f2b57ca6b93715d65f8390d3de.png

Reference

Vineet Thumuluri, José Juan Almagro Armenteros, Alexander Rosenberg Johansen, Henrik Nielsen, Ole Winther, DeepLoc 2.0: multi-label subcellular localization prediction using protein language models, Nucleic Acids Research, Volume 50, Issue W1, 5 July 2022, Pages W228–W234.

桓峰基因,铸造成功的您!

未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,

敬请期待!!

桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/

桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/

### 回答1: t.yml是什么意思? 这是一个使用conda创建环境的命令,其中“-f”选项指定了要使用的环境配置文件的路径和名称。在这种情况下,“environmen.yml”是环境配置文件的名称。该命令将根据配置文件中指定的依赖项和软件包创建一个新的conda环境。 ### 回答2: conda env create -f environment 这个命令的含义是在当前conda环境下,在根据给定的YAML文件创建一个新的conda虚拟环境。 在使用conda管理Python环境时,可以创建多个虚拟环境,并且在各个虚拟环境中使用不同的Python版本和各种库。这样可以避免不同项目之间由于Python版本的不同导致的依赖关系冲突。 通过使用YAML文件,可以指定要创建的虚拟环境中所需的包和版本,以及其他必要的配置信息。在这个文件中,我们需要指定虚拟环境的名称,以及所需的Python版本和其他必须安装的库。一旦安装了所需的包,这个环境就可以用于对应的项目了。 总之,通过conda env create -f environment 这个命令,可以方便地创建一个虚拟环境,并立即开始工作。这个虚拟环境将具有所需的所有依赖关系,可以确保项目的良好运行。如果需要在不同的操作系统上运行同一个项目,那么只需要把YAML文件共享给其他开发人员即可。这样可以确保项目的所有开发者都处于相同的工作环境中,进而避免工作问题。 ### 回答3: conda env create -f environment是Conda环境管理工具中的一个命令,用于创建一个新的环境并从一个文件(environment.yaml)中读取并安装必要的软件包及其依赖项。其中,environment.yaml是一个YAML格式的文件,定义了需要安装的软件包及其依赖项的名称、版本及来源。 在Conda中,环境是一种可以隔离不同软件包及其依赖项的容器,每个环境都可以有不同的软件包及版本。这种环境隔离的设计能够帮助用户有效地管理和控制所需软件包,避免不必要的软件包与版本冲突和干扰。 使用conda env create -f environment命令,用户可以快速创建一个新的环境并从environment.yaml中一次性安装所需的软件包及其依赖项。该命令还允许用户在不同环境之间切换,以便于测试、开发或部署不同的项目。此外,该命令还支持创建和管理虚拟环境,从而简化了在不同操作系统和主机之间移植项目的过程。 总之,conda env create -f environment是一个非常有用的命令,可以帮助用户快速、有效地创建和管理Conda环境,确保项目的安全性、可靠性和可重复性,是Python开发和科学计算的必备工具之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值