在学习蛋白质蛋白质相互作用时看到了PSSM矩阵,就学习了一下如何生成的,具体步骤如下。
1.下载安装
网址:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
2.正常运行安装
此处并不产生任何快捷方式,不要反复下(都是踩过的坑)。
会产生一个blast文件夹
3.cmd-运行-powershell cd指令进入blast
或者 在blast中shift键+右击,进入powershell
4.下载数据库
网址:https://ftp.ncbi.nlm.nih.gov/blast/db/
一定要进入 FASTA/ 文件夹!!
由于nr太大,我尝试了swissprot的数据,并把它放在了新创建的db文件夹下,以下以它为例。
5. 对下载的数据进行处理,使其数据格式化
cd 进入db文件夹下,执行bin文件夹下的 makeblastdb.exe(这个可以直接拖进去)
C:\Users\86150\Desktop\PSSM\blast\bin\makeblastdb.exe -in swissprot -dbtype prot -title “swissprot” -out lxsp
lxsp是转换完各种数据库的名字……
6.目标蛋白质序列,此处以1个蛋白质序列为例,.txt文件就可以。第一行是头部,第二行是序列:
>aa
SHMRPEPRLITILFSDIVGFTRMSNALQSQGVAELLNEYLGEMTRAVFENQGTVDKFVGDAI
7.生成PSSM矩阵
命令行:C:\Users\86150\Desktop\PSSM\blast\bin\psiblast.exe -db lxsp -query 1.txt -evalue 0.001 -num_iterations 3 -out_ascii_pssm 1.pssm
-db 后面是数据库
-query 查找蛋白质文件
-evalue 应该是什么参数,-evalue 0.001 没有也能生成PSSM矩阵,这个后期学习补充,或者路过有知道的请评论。
-num_iterations 迭代次数
-out_ascii_pssm 生成文件
8.运行结果
运行结果需要下载notepad查看,前10列就是PSSM矩阵。
9.结论
数据库要下对,格式再转换,就没有坑了。
这是针对一条序列,在windows本地的操作,后期如果写论文用到此矩阵会追加批处理的方法,还有nr的服务器操作。
10.参考文章
psiblast生成pssm矩阵及psiblast参数详解_阿斯达克-CSDN博客
蛋白质序列位置特异性矩阵(PSSM)的获取 - Roronoa-Zoro - 博客园
PSSM矩阵的生成(ncbi-blast-2.9.0+-win64)_xiaobai1_1的博客-CSDN博客
11.发现线上生成蛋白质PSSM矩阵的网址