前缀树
前缀树主要用于词频统计,一些补全也可以实现。
特点
- 根节点不包含字符,除根节点意外每个节点只包含一个字符。
- 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。
- 每个节点的所有子节点包含的字符串不相同。
结构
type node struct {
pass int
end int
child map[byte]*node
}
- pass:节点添加的次数
- end:以节点结尾的串的数目
- child:当前节点和它的子节点的关系
操作
主要提供三类操作:
- 添加
- 查找
- 查找单词
- 查找前缀
- 删除
增加
从根节点触发,对应的节点不存在则创建,存在的话pass自增。最后一个节点end自增。
func (n *node) Add(word string) {
if len(word) == 0 {
return
}
n.pass++
ptr := n
bytes := []byte(word)
for _, val := range bytes {
if ptr.child == nil {
ptr.child = make(map[byte]*node)
}
if ptr.child[val] != nil {
ptr.child[val].pass++
ptr = ptr.child[val]
continue
}
ptr.child[val] = &node{1, 0, nil}
ptr = ptr.child[val]
}
ptr.end++
}
查找
从根节点触发,一旦有一个节点不存在,直接退出,证明不存在。
如果待查询内容的节点全部存在,返回最后一个节点。
- 查询单词:将返回的节点的end返回。
- 查询前缀:将返回的节点的pass返回。
func (n *node) search(word string) *node {
if len(word) == 0 {
return nil
}
ptr := n
bytes := []byte(word)
for _, val := range bytes {
if ptr.child[val] == nil {
return nil
}
ptr = ptr.child[val]
}
return ptr
}
func (n *node) SearchWord(word string) int {
rst := n.search(word)
if rst == nil {
return 0
}
return rst.end
}
func (n *node) SearchPrefix(word string) int {
rst := n.search(word)
if rst == nil {
return 0
}
return rst.pass
}
删除
对于删除有一点比较特殊,就是提前退出。举例来说。一棵树中只添加过一个单词“golang”,那么删除的时候还是从根节点找到g节点,然后沿途节点pass自减,一旦遇到节点pass为0,那么删除这个子节点,后续不再处理。如果一直遇不到pass为0的情况,那么沿途节点pass自减,最后一个节点end自减。
func (n *node) Delete(word string) {
if n.SearchWord(word) == 0 {
return
}
n.pass--
ptr := n
bytes := []byte(word)
for _, val := range bytes {
ptr.child[val].pass--
if ptr.child[val].pass == 0 {
delete(ptr.child, val)
return
}
ptr = ptr.child[val]
}
ptr.end--
}
关于作者
大四学生一枚,分享数据结构,面试题,golang,C语言等知识。QQ交流群:521625004。微信公众号:后台技术栈。