前缀树的构建过程
前缀树是一种树形结构,用于统计和排序大量的字符串。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较。
下面通过举例前缀树的构建过程量来理解前缀树的结构。
假设有"abc",“abd”,“kst”,三个字符串,将这三个字符串组织成前缀树的结构。
- 定义前缀树的节点
前缀树节点中有连个变量,pass和end;pass是指在构建前缀树的过程中,通过该节点的次数,end是指在构建前缀树的过程中,到该节点出,字符串结尾的次数
public static class TrieNode {
public int pass;
public int end;
public TrieNode[] nexts;
// char tmp = 'b' (tmp - 'a')
public TrieNode() {
pass = 0; // 在构建前缀树过程中通过该节点的次数
end = 0; // 到该节点,字符串结尾的次数
// 0 a
// 1 b
// 2 c
// .. ..
// 25 z
// nexts[i] == null i方向的路不存在
// nexts[i] != null i方向的路存在
nexts = new Node1[26];
}
}
- 示意图:
首先初始化根结点,然后扫描第一个字符串abc,扫描指针指向字符a,根结点没有走向a的路,则新建一条走向a的路(结点2),此时结点1和2都被通过一次,pass加1,但是abc没有结束,所以e=0;cur指向结点2,扫描指针指向结点2,结点2没有走向b的路,所以新建结点3,cur来到结点3,结点3被通过一次,pass加1,e=0;扫描指针指向字符c,结点3没有走向c的路,所以新建结点4,cur来到结点4,结点4被通过一次,并且abc被扫描玩,pass加1,e加1。
开始扫描字符串abd,没当开始扫描一个新字符串,都从根结点开始,cur指向根结点,1.pass++。对于a,1结点有走向a的路,所以cur通过走向a的路指向2结点,1.pass++;对于b,结点2有走向b的路,所以cur指向2结点,3.pass++;对于d,3结点没有走向d的路,新建结点5,cur来到结点5,因为abd结束,5.pass++,5.end++。
按照上述过程扫描剩余字符串,并且构建相应的前缀树结构。
前缀树的应用
- 查询某一个字符串出现的次数
- 从字符串的根结点出发
- 查询以某一个字符串为前缀的字符串的个数