SEQ 7. 蛋白序列的结构特征预测(NetSurfP3)

413653b819518c5b6ed7dd91bf07db87.png

简   介

机器学习和自然语言处理的最新进展使我们能够深刻地提高准确预测蛋白质结构及其功能的能力。虽然这些改进对生物学和生物技术领域产生了重大影响,但这些方法在计算能力和运行时间方面有很高的要求,阻碍了它们对大型数据集的适用性。在这里,我们介绍NetSurfP-3.0,预测溶剂可及性的工具,二级结构,结构无序和主干二面角的氨基酸序列的每个残基。这次NetSurfP更新利用了预训练蛋白质语言模型的最新进展,在其前身的运行时间上大幅提高了两个数量级,同时显示出类似的预测性能。在几个独立的测试数据集上评估了NetSurfP-3.0的准确性,并发现始终如一地为其每个输出特征生成最先进的预测,运行时比执行相同任务的最常用的方法快600倍。该工具作为web服务器免费提供,具有用户友好的界面来导航结果,以及一个独立的可下载包。

235abb331831c1173c0de2313fb73e2a.png

NetSurfP3.0 在线分析工作流程:

1d9b94462425011a5528f13c1f7fc0ad.png

文件准备

这个输入文件只有一个文件可以是蛋白序列文件,例如:

>2WNS.A.1 TRANSFERASE
ALGPLVTGLYDVQAFKFGDFVLKSGLSSPIYIDLRGIVSRPRLLSQVADILFQTAQNAGIS
FDTVCGVPYTALPLATVICSTNQIPMLIRRKETKDYGTKRLVEGTINPGETCLIIEDVVTS
GSSVLETVEVLQKEGLKVTDAIVLLDREQGGKDKLQAHGIRLHSVCTLSKMLEILEQQKKV
DAETVGRVKRFIQE
>119L.A
MNIFEMLRIDEGLRLKIYKDTEGYYTIGIGHLLTKSPSLNAAKSELDKAIGRNTNGVITKD
EAEKLFNQDVDAAVRGILRNAKLKPVYDSLDAVRRAALINMVFQMGETGVAGFTNSLRMLQ
QKRWDEAAVNLSKSRWYNQTPNRAKRVITTFRTGTWDAYK

在线分析

在线网址NetSurfP3,或者NetSurfP3在线使用还是非常简单,序列少可以优先选择在线操作。

线上分析对数据量要求有一定局限性:

氨基酸序列最多10000个序列,每个序列长度为10到5000个残基,或者总共有10M个残基。如果出现内存不足错误,则删除所有超过1022个残基的序列。超过1022个残基的序列一次最多可提交40个。该错误是由于一个未解决的Pytorch GPU 内存处理错误引起的。或者下载独立包(在“下载”下)并在CPU上本地运行。

0c45ec5698d72f9ec4b4a2bf83901237.png

0d31e4552e70da7bbd16c3f5456036f2.png

NetSurfP-3 测试结果:

运行完成之后会出现结果页面,右上角可以下载结果。

6130305c397967bea0aec4a01623f2bd.png

看一下CSV格式的结果:

d5d291244ae16e81b72d26a37e20b984.png

同时页面上也会出现每个基因蛋白质结构预测的结果:

38dee5c053d5d8e0a27c4d3ee395bc8a.png

本地分析

软件包安装

首先下载软件包,这个  NetSurfP3.0  软件包基于python3版本,下载的时候注意一下需要输入带有.edu类后缀的邮箱,否则也下载不了,安装操作都差不多哈。

pip3 install -U pybiolib
biolib run DTU/NetSurfP_3

或者通过以下方法:

import biolib
nsp3 = biolib.load('DTU/nsp3')
nsp3_results = nsp3.cli(args='--input_data your_file.fasta')
nsp3_results.save_files("your_output_dir/")

测试安装是否成功:

biolib run DTU/NetSurfP_3 -h
usage: main.py
       [-h]
       -i
       I
       -o
       O
       [-m M]
       [-w W]
       [-gpu GPU]

optional arguments:
  -h, --help
    show this
    help
    message and
    exit
  -i I
    File input
    path
  -o O
    File output
    path
  -m M
    Model data
    path
  -w W
    Worker id
  -gpu GPU
    Set to use
    GPU

实际操作

1. 参数说明

-i 输入蛋白序列文件;

-o 输出文件路径;

其他根据自己的运行环境设置。

2. 实际操作命令如下:
biolib run DTU/NetSurfP_3 -i test.fa

结果解读

运行完成会发现生成 biolib_results/文件夹,里面涉及到所有的结果,每个序列都会生产一个文件夹,里面都有四个文件,如下:

1035d474f6f093641e5691efb96cb24b.png

然后根据每条序列的结果最后整理到results.netsurfp.txt里面。

4755bf53ff4446d8c35c7b44350e1f08.png

最主要的结果在biolib_results/results.netsurfp.txt 文件里面总结好了,每列的含有也显示在结果文件的title里面,这里不再赘述。

14c0310cfe2f08651dd17574e3b5376b.png

Reference

Magnus Haraldson Høie, et.al. NetSurfP-3.0: accurate and fast prediction of protein structural features by protein language models and deep learning, Nucleic Acids Research, Volume 50, Issue W1, 5 July 2022, Pages W510–W515, https://doi.org/10.1093/nar/gkac439

桓峰基因,铸造成功的您!

未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,

敬请期待!!

桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/

桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/

0faca3ec2452786510917c72316690b6.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值