前缀树(Trie),也叫单词查找树,典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。它的基本性质如下:
根节点不包含字符,除根节点外每一个节点都只包含一个字符。
从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
每个节点的所有子节点包含的字符都不相同。
前缀树常用的有如下4个操作:
1.插入字符串: void insert(string str)
遍历字符串,沿途经过的pass++,如果出现某个字符从未出现时则新建一个。遍历到最后一个字符时,其结点的end++;
2.删除字符串: void delete(string str)
遍历字符串,每个字符串的pass–,如果遍历到最后一个,end也–;如果沿途发现某个结点的pass(自减之前)值为1,则直接删除该结点。
3.在前缀树中查询字符串出现的次数: int search(string str)
遍历字符串,返回最后一个字符对应结点的end值。
4.在前缀树中查询以str字符串为前缀的个数: int prefixNumber(string str)
遍历字符串,返回最后一个字符对应的结点的pass值。
(pass为经过该结点的次数,end为以该结点结尾的次数)