关于SailVina中蛋白质的下载与受体提取的使用介绍

本文详细介绍了如何批量下载PDB蛋白质结构数据库的文件,并进行压缩、解压、文件后缀名修改等操作。接着,讲述了如何使用SailVina软件批量准备受体,包括文件的移动、重命名以及创建对应文件夹。整个过程涉及文件管理、批处理脚本的使用,旨在提高处理大量蛋白质结构数据的效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、蛋白质的批量下载
步骤1:进入PDB蛋白质结构数据库官网,点击PDB蛋白质结构数据库官网
  • 图例:官网
步骤2:点击左侧Download选项,进入下载页面,或直接点击下载页面
  • 图例:下载页
步骤3:批量下载pdb文件
  • 批量下载文件需按照指定格式在下载页面的输入框输入PDB的ID.

    • 例如:4hhb,108d
    • 注意:ID之间以英文逗号隔开
    • 小技巧:在进行批量文件下载时,拿到的PDB文件ID可能并不是需要的以英文逗号隔开的格式,那么就需要进行调整。为了快速,以及后续操作的便捷,这里推荐使用vscode这款代码编辑器进行批量编辑.

    图例vscode中多行操作

    快键键:Ctrl + Shift 可以同时选中多行进行操作,其他操作如批量修改大小写,批量替换等可自行查询,不再赘述.

  • 文件下载

    • 文件下载需要注意下载文件的格式
    • 在蛋白质较多的时候,最后生成过个压缩包,需逐个点击下载
    • 步骤图例下载步骤
  • 文件批量减压

    • 须知上一步下载到的是多个压缩包,需要对其进行减压处理。当然这里需要进行两次减压,因为这些zip压缩格式的文件里存放的是gz压缩格式的文件,所以需要两次批量减压缩

    • 须知全部减压完成后等到的文件后缀名为.pdb1,而我们最终想要得到的是以**.pdb**结尾的文件,那么就需要批量修改文件后缀名(如果电脑没有显示文件的后缀名,可通过点击此处教程设置)

    • 批量减压脚本编写这里需要使用windows的批处理程序进行处理,可以在网上找到代码,稍作修改便可以使用.可以使用如下代码:

      @echo off
      set WinRAR="C:\Program Files\WinRAR\WinRAR.exe" 
      for /r . %%a in (*.rar *.zip *.gz) do ( 
      cd "%%~pa" 
      %WinRAR% x -ad -y "%%a" 
      del "%%a"
      )
      

      提示:由于每个人使用的压缩软件不同,所以上述代码中set WinRAR="C:\Program Files\WinRAR\WinRAR.exe"这行代码,将后面的C:\Program Files\WinRAR\WinRAR.exe,改为你的压缩软件.exe执行文件所在的路径,比如我的可以做如下修改:

      @echo off
      set WinRAR="C:\Program Files\7-Zip\7z.exe" 
      for /r . %%a in (*.rar *.zip *.gz) do ( 
      cd "%%~pa" 
      %WinRAR% x -ad -y "%%a" 
      del "%%a"
      )
      
    • 脚本的执行在下载的PDB文件压缩包所在文件夹下新建文本文件,然后编辑,将上述脚本输入保存,然后修改文件后缀名为.bat,双击运行即可

    • 步骤图例批量减压示例

      减压结果

  • 批量修改文件后缀为.pdb

    上面步骤减压完成后文件后缀为**.pdb1**,需要将其修改为**.pdb**。与上面批量减压一样采用批处理脚本,在当前文件夹

    下按照上述步骤建立以下代码的脚本双击运行即可.

    ren *.* *.pdb
    

    图例改后缀示例

    运行结果

二、批量准备受体

操作前须知

  • 由于SailVina版本不同,老版本没有批量受体提取的功能,所以推荐下载百度网盘,提取码:e4ss
  • 准备受体具体步骤可参考软件作者的github网址SailVina使用
步骤1 准备受体
  • 打开软件,在选择多个受体弹出的对话框中选择下载好的**.pdb**文件所在的文件夹,设置好受体输出路径后点击准备受体,然后等待完成即可,耗费的时间视数据量而定.

  • 图例:

    受体准备

准备过程

步骤2 将生成的受体放入对应一PDB的ID为名的文件夹中

操作前须知:目前生成的受体都是以PDB的ID为文件名,以**.pdbqt为后缀。而且全部放在同一个文件夹下。现在需要批量新建各自的文件夹,如6h06.pdbqt则放入文件名为6h06的文件夹中。放入各自的文件夹中还需要将所有的受体统一命名为preped.pdbqt**,下面便是完成这些操作的具体步骤:

  • 批量新建文件夹

    md 2hlz 2olm 2qq8 2r2o 2w2j 3eo3 3fk2 3g2g 3h6n 3hm5 3hm6 3hzj 3iez 3iug 3lx7 3me9 3mpx 3qby 3qii 3qij 3r90 3ray 3tf2 3tug 3uxg 3wxv 4e74 4fo9 4i79 4juy 4lg7 4lg8 4pxw 4q94 4qn1 4qq4 4qqi 4r3h 4rci 4rcj 4y3k 4ywq 4z0o 4z30 5df6 5epj 5eq0 5j39 5lpu 5mg7 5t1i 5tee 5tef 5w9s 5wch 5wp3 6asd 6bc9 6bhg 6bhh 6c1t 6c2f 6cc8 6ccg 6ccr 6cd8 6cdc 6cdg6ckn 6fft 6glc 6nfx 6oea 6ogk 6oov 6qw6 6qzp 6sgc 6u2l 6v2r 
    

    上面的代码中,md代表make directory,后面全部为要新建的文件夹的名字,需要以空格隔开,如前面所讲,编辑完成后,修改文件后缀名为**.bat**,然后双击运行即可,如下图:

    运行前

    双击运行后

  • 将对应文件存放到对应文件夹下

    move 5god.pdbqt 5god 
    move 4dck.pdbqt 4dck 
    move 5q93.pdbqt 5q93 
    move 6bhh.pdbqt 6bhh 
    move 2w8p.pdbqt 2w8p 
    move 5nmd.pdbqt 5nmd 
    move 2cbl.pdbqt 2cbl 
    move 3o77.pdbqt 3o77 
    move 4dy7.pdbqt 4dy7 
    move 5gtc.pdbqt 5gtc 
    move 2r24.pdbqt 2r24 
    move 5q32.pdbqt 5q32 
    move 6cd8.pdbqt 6cd8 
    move 4i5n.pdbqt 4i5n 
    move 3qb5.pdbqt 3qb5 
    move 5cor.pdbqt 5cor 
    move 4rly.pdbqt 4rly 
    move 4tu6.pdbqt 4tu6 
    move 2hhl.pdbqt 2hhl 
    move 5u30.pdbqt 5u30 
    move 4grz.pdbqt 4grz 
    move 6qfi.pdbqt 6qfi 
    move 3pdv.pdbqt 3pdv 
    move 3ov1.pdbqt 3ov1 
    move 6bt1.pdbqt 6bt1 
    move 3lck.pdbqt 3lck
    

    上面的代码move代表移动,下一个代表要移动的文件,最后一项代表要移动到的文件路径。(与前面操作类似,不做演示)

  • 批量修改文件名

    ren 5god\5god.pdbqt preped.pdbqt 
    ren 4dck\4dck.pdbqt preped.pdbqt 
    ren 5q93\5q93.pdbqt preped.pdbqt 
    ren 6bhh\6bhh.pdbqt preped.pdbqt 
    ren 2w8p\2w8p.pdbqt preped.pdbqt 
    ren 5nmd\5nmd.pdbqt preped.pdbqt 
    ren 2cbl\2cbl.pdbqt preped.pdbqt 
    ren 3o77\3o77.pdbqt preped.pdbqt 
    ren 4dy7\4dy7.pdbqt preped.pdbqt 
    ren 5gtc\5gtc.pdbqt preped.pdbqt 
    ren 2r24\2r24.pdbqt preped.pdbqt 
    ren 5q32\5q32.pdbqt preped.pdbqt 
    ren 6cd8\6cd8.pdbqt preped.pdbqt 
    ren 4i5n\4i5n.pdbqt preped.pdbqt 
    ren 3qb5\3qb5.pdbqt preped.pdbqt 
    ren 5cor\5cor.pdbqt preped.pdbqt 
    ren 4rly\4rly.pdbqt preped.pdbqt 
    ren 4tu6\4tu6.pdbqt preped.pdbqt 
    ren 2hhl\2hhl.pdbqt preped.pdbqt 
    ren 5u30\5u30.pdbqt preped.pdbqt 
    ren 4grz\4grz.pdbqt preped.pdbqt 
    ren 6qfi\6qfi.pdbqt preped.pdbqt 
    ren 3pdv\3pdv.pdbqt preped.pdbqt 
    ren 3ov1\3ov1.pdbqt preped.pdbqt 
    ren 6bt1\6bt1.pdbqt preped.pdbqt 
    ren 3lck\3lck.pdbqt preped.pdbqt 
    

    上面代码ren代表rename即重名名的意思,第一行的意思就是将文件夹5god下的名为5god.pdbqt的文件的名字重命名为preped.pdbqt,每一行意思同理,不在赘述,同样不做演示.

三、总结

​ 每个人对电脑的熟悉程度不同,会导致耗费的时间不同。上面演示的都是在我电脑上的例子,具体出现一些我未提到的情况还需自己解决。

补充:在准备受体的时,大量的数据中会有一些同源的蛋白质不能成功获取。那么在将对应文件放入文件夹中时会有空的文件夹出现,这些就代表没有成功的受体,要找出这些空的文件夹,然后手动重新单个进行操作,这里提供一个获取空文件夹的工具,文件下载

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值