PSI-BLAST输出文件解读

PSSM 文件

PSI-BLAST 输出的 PSSM 文件通常包含两个主要部分:位置特异性打分矩阵(PSSM) 和 观测频率矩阵。PSSM 文件记录了查询序列中每个位置的打分、氨基酸频率、信息含量等,用于描述保守性模式。

    之前的文章PSI-BLAST生成的PSSM文件转换为pssm_dict字典-CSDN博客PSI-BLAST生成的PSSM文件格式解析有点错误 : 第 22-41 列应该为不同氨基酸的观测频率矩阵。

(1) PSSM 打分矩阵部分
  • 位置编号:代表查询序列中该氨基酸的位置。

  • 氨基酸:表示该位置上的氨基酸。

  • 20 列打分:针对该位置的 20 种氨基酸的 log-odds scores。这个得分是根据查询序列和同源序列中的观测频率与背景频率的比值计算的,表示每个氨基酸相对于背景频率的富集情况。

### PSI-BLAST 相关的数据库资源介绍 PSI-BLAST(Position-Specific Iterated BLAST)是一种迭代式的BLAST算法,能够更敏感地检测远缘同源关系。为了支持这种高级功能,多个数据库和服务提供了必要的数据和工具。 #### 1. NCBI 数据库及其FTP站点 国家生物技术信息中心(NCBI)提供了一系列可搜索的数据库,这些数据库可以在其网站上访问,也可以通过FTP下载[^2]。对于希望使用预格式化版本而非原始FASTA文件的研究人员来说,这尤其有用。这类数据库不仅体积较小,而且包含了每条序列对应的分类学信息以及索引标识符,有助于提高查询效率。 #### 2. TMBASE 跨膜蛋白数据库 虽然TMBASE主要是一个专注于跨膜蛋白质的数据集合[^1],但它同样可以作为PSI-BLAST分析的一个潜在目标库之一。特别是当研究涉及特定类型的膜结合分子时,这个专门化的资源可能特别有价值。 #### 3. Entrez检索服务中的PDB结构数据 除了上述提到的一般性序列数据库外,来自NCBI Entrez系统的三维结构记录也值得考虑[^3]。尽管这不是直接针对PSI-BLAST设计的服务,但在进行进化保守区域预测或其他基于结构的功能推断时,此类资料能起到辅助作用。 ```python from Bio.Blast import NCBIXML result_handle = open("psi_blast_results.xml") blast_records = NCBIXML.parse(result_handle) for record in blast_records: for alignment in record.alignments: title = alignment.title[:80] print(f"Title: {title}") ``` 此Python脚本展示了如何解析由PSI-BLAST产生的XML输出文件,并提取其中的部分信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值