图解BWT FM-Index算法

FM-Index(Full-text Minute Index)是一种用于高效搜索和压缩全文数据的索引结构, 广泛应用于生物信息学和文本检索领域.
它基于 Burrows-Wheeler Transform (BWT) 和辅助数据结构, 能够在压缩存储的同时支持快速的子串搜索, 计数和定位操作.

算法核心

LF 变换是 BWT 算法的核心. FM-Index 使用巧妙的办法来实现 LF 变换.

BWM(Burrows Wheeler Matrix)

BWM 是由源字符串不断循环移位产生的. 可以参考我之前的博客: 图解 BWT(Burrows-Wheeler Transform) 算法.

"mississippi$"为例, 它的 BWM 矩阵如图所示:

BWM

FM-Index 查询字符串

示例 1: 查询字符串"ssi"

在 BWT 字符串中, 查询是倒序进行的. 也就是匹配是从字符'i'开始

  1. 第一步: 在 F 行找出所有的以'i'开头的行, 如图所有, 有 4 行. 我们知道这个 BW 矩阵是由S的循环移位产生的, 因此L行的字符出现在对应F行的字符的左边. 具体来说就是这四个'i'与其左侧元素构成的字符串为:

    • p 0 i 0 \textrm{p}_0\textrm{i}_0 p0i0
    • s 0 i 1 \textrm{s}_0\textrm{i}_1 s0i1
    • s 1 i 2 \textrm{s}_1\textrm{i}_2 s1i2
    • m 0 i 3 \textrm{m}_0\textrm{i}_3 m0i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

arong-xu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值