生物信息学导论-北大-序列比对-序列数据库搜索

本文链接：https://blog.csdn.net/pxy7896/article/details/135530472

本文介绍了在Coursera学习过程中对BLAST算法的理解，包括其作为启发式快速比对工具的原理、在数据库中查找种子序列的方法、以及如何处理低复杂度序列和E-value评估。重点讲解了Smith-Waterman算法的应用和HSP的评估策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近重新捡起coursera上的课了，这次准备好好学，把考试考了。。因此顺便记录一下学习过程。

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义。

操作：拿查询序列去比对数据库中每一条序列

问题：如果用前面的比对方法，那一条查询序列遍历完数据库中所有序列会耗费很长时间，因此需要一种非常快的算法。

BLAST(Basic Local Alignment Search Tool)：heuristic algorithm, locally optimal alignments, very fast

启发式：not best but good enough。

BLAST虽然比普通的动态局部匹配快1000倍以上，但是对远一些的序列（e.coli vs human）敏感度会比较低（low sensitivity）。

blast algorithm outline:

find matches(seed) between the query and subject.
extend seed into High Scoring Segment Pairs(HSPs), run Smith-Waterman algorithm（local） on the specified region only.
Assess the reliability of the alignment

procedures:

filter
1. 为了减少统计上显著但实际不重要的结果
2. 过滤的是低复杂度序列和重复序列，以及查询序列本身
3. 用N或X取代核苷酸和氨基酸
seeding
search word hits
1. 不要gap，完全匹配
2. Scoring matrix：氨基酸使用BLOSUM/PAM，核苷酸match/mismatch使用+5/-4或+2/-3
3. 根据打分矩阵生成neighbourhood words：对于一个seed word，从替换一个碱基后算得分开始到完全替换，能得到一串同长度的字符串，如果一个字符串的得分比阈值T高（或等于T），就是邻近词了
scanning
1. HashTable：直接寻址
2. Deterministic finite automaton/finite state machine：更快
extending
1. 在找到的位置向两侧延长，根据打分矩阵计算的分数在cutoff score S以上，就得到了HSP
significance evaluation