SEQ 9. α-螺旋和 β-桶跨膜蛋白的预测(DeepTMHMM)

a96d5e17652019e3c3ebd003d5be6af4.png

简   介

跨膜蛋白跨越脂质双分子层,分为两种主要结构类,即螺旋状和桶状。我们介绍了 DeepTMHMM,这是一种基于深度学习蛋白质语言模型的算法,可以以前所未有的精度检测和预测 α-螺旋和 β-桶跨膜蛋白的拓扑。DeepTMHMM 可扩展到蛋白质组,并涵盖生命的所有领域,这使其成为宏基因组学分析的理想选择。

30952f6c831f9a517b6fe26fb2d3a126.png

在过去的几年中,使用深度学习方法进行蛋白质结构预测已经取得了一些进展。在这个项目中,我们研究了深度学习预测跨膜蛋白的膜拓扑结构。跨膜蛋白与药物开发相关,因为它们占所有人类药物靶点的50%以上。DeepTMHMM 是目前预测α -螺旋和β -桶跨膜蛋白拓扑结构最完整、性能最好的方法。该模型通过预训练的语言模型对初级氨基酸序列进行编码,并通过状态空间模型对拓扑进行解码,从而以前所未有的精度产生拓扑和类型预测。DeepTMHMM 使扫描全蛋白质组成为可能,以便检测两类跨膜蛋白,我们预计我们的方法对研究界非常有价值。

分析流程

a.考虑的蛋白质类型的蛋白质拓扑结构的状态空间模型。1a顶部为AlphaTM、SP+TM、Glob和SP+Glob拓扑,底部为原核β桶和SP+Glob拓扑。蛋白质序列从n端开始(为了清晰地在图中分开),在c端结束,箭头表示向其他“区室”的过渡。该模型可以在预先指定的范围内,在每个隔间内停留若干个残差。

b. DeepTMHMM神经网络架构由ESM1-b模型(如图“Embedding”所示)、双向LSTM、带dropout的密集层和最后的CRF解码器层组成。

a0d5508ea826e16489edce3d2c7ad45c.jpeg

文件准备

这个输入文件只有一个文件可以是蛋白序列文件,例如:

>GLR1_DROME Glutamate receptor 1 OS=Drosophila melanogaster GN=GluRIA PE=1 SV=2
MHSRLKFLAYLHFICASSIFWPEFSSAQQQQQTVSLTEKIPLGAIFEQGTDDVQSAFKYAMLNHNLNVSSRRFELQAYVDVINTADAFKLSRLICNQFSRGVYSMLGAVSPDSFDTLHSYSNTFQMPFVTPWFPEKVLAPSSGLLDFAISMRPDYHQAIIDTIQYYGWQSIIYLYDSHDGLLRLQQIYQELKPGNETFRVQMVKRIANVTMAIEFLHTLEDLGRFSKKRIVLDCPAEMAKEIIVQHVRDIKLGRRTYHYLLSGLVMDNHWPSDVVEFGAINITGFRIVDSNRRAVRDFHDSRKRLEPSGQSQSQNAGGPNSLPAISAQAALMYDAVFVLVEAFNRILRKKPDQFRSNHLQRRSHGGSSSSSATGTNESSALLDCNTSKGWVTPWEQGEKISRVLRKVEIDGLSGEIRFDEDGRRINYTLHVVEMSVNSTLQQVAEWRDDAGLLPLHSHNYASSSRSASASTGDYDRNHTYIVSSLLEEPYLSLKQYTYGESLVGNDRFEGYCKDLADMLAAQLGIKYEIRLVQDGNYGAENQYAPGGWDGMVGELIRKEADIAISAMTITAERERVIDFSKPFMTLGISIMIKKPVKQTPGVFSFLNPLSQEIWISVILSYVGVSFVLYFVTRFPPYEWRIVRRPQADSTAQQPPGIIGGATLSEPQAHVPPVPPNEFTMLNSFWYSLAAFMQQGCDITPPSIAGRIAAAVWWFFTIILISSYTANLAAFLTVERMVAPIKTPEDLTMQTDVNYGTLLYGSTWEFFRRSQIGLHNKMWEYMNANQHHSVHTYDEGIRRVRQSKGKYALLVESPKNEYVNARPPCDTMKVGRNIDTKGFGVATPIGSPLRKRLNEAVLTLKENGELLRIRNKWWFDKTECNLDQETSTPNELSLSNVAGIYYILIGGLLLAVIVAIMEFFCRNKTPQLKSPGSNGSAGGVPGMLASSTYQRDSLSDAIMHSQAKLAMQASSEYDERLVGVELASNVRYQYSM

在线分析

在线网址DeepTMHMM,在线使用还是非常简单,序列少可以优先选择在线操作。

19aa73a0204e68b507d620fe69e090c3.png

线上分析对数据量要求有一定局限性:

粘贴序列测试结果:

6d5815d52d77b61d07dfd924ff68d062.png

或者在DeepTMHMM在线分析,结果是一样的。

29469f512d9a2f0738b2c60c04c67d16.png

本地分析

软件包安装

pip3 install pybiolib

测试安装是否成功:

biolib run DTU/DeepTMHMM --help
usage: wrapper.py
       [-h]
       [--fasta FASTA]
       [--N_SLEEP_SECONDS N_SLEEP_SECONDS]
       [--local]
       [--verbose]

WARNING:
Wrong
DeepTMHMM
version
downloaded.
Please use
biolib run 
'DTU/DeepTM
HMM:1.0.24'

optional arguments:
  -h, --help
    show this
    help
    message and
    exit
  --fasta FASTA
  --N_SLEEP_SECONDS N_SLEEP_SECONDS
  --local
    Connect to
    localhost
    monolith
  --verbose
    Connect to
    localhost
    monolith

实际操作

1. 参数说明

--fasta 输入蛋白序列

--local 从终端本地运行,这里需要安装Docker才能使用

其他参数根据自己使用的环境设置。

2. 实际操作命令如下:

测试例子来自在线分析上的一个序列,并且启用预测:

biolib run DTU/DeepTMHMM --fasta test.fa
#2024-08-09 03:44:18,581 | INFO : Extracted zip file to: output/
#2024-08-09 03:44:18,581 | INFO : Done in 4.41 seconds

结果解读

生产文件夹 biolib_results/,里面有很多个文件:

ee570891ea657b7b8dfb98266c21a69c.png

51ea67df039a5fe45f0af1446929b813.png

再看一下TMRs.gff3文件:

66793b805ade13b70caaa40f13f7a51d.png

第一列:序列名称

第二列:预测类型

第三列:起始位置

第四列:终止位置

Reference

Jeppe Hallgren, Konstantinos D. Tsirigos, Mads Damgaard Pedersen, José Juan Almagro Armenteros, Paolo Marcatili, Henrik Nielsen, Anders Krogh, Ole Winther bioRxiv 2022.04.08.487609.

桓峰基因,铸造成功的您!

未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,

敬请期待!!

桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/

桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/

seq2seq-attention是指在seq2seq模型中引入了注意力机制(Attention)。在传统的seq2seq模型中,编码器将输入序列转化为一个固定长度的向量,然后解码器将这个向量解码成输出序列。而在seq2seq-attention模型中,解码器在每个时间步都会根据输入序列的不同部分给予不同的注意力权重,从而更加关注与当前时间步相关的输入信息。这样可以提高模型对输入序列的理解能力,进而提升预测的准确性。引入注意力机制后,seq2seq-attention模型在翻译、文本摘要和问答等任务上有着更好的表现。\[1\]\[2\] #### 引用[.reference_title] - *1* [NLP自然语言处理之RNN--LSTM--GRU--seq2seq--attention--self attetion](https://blog.csdn.net/weixin_41097516/article/details/103174768)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [自注意力机制(Self-Attention):从Seq2Seq模型到一般RNN模型](https://blog.csdn.net/qq_24178985/article/details/118683144)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值