数据结构 - Trie树(字典树)

Trie树

也叫单词查找树或者字典树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

树的大致结构如下图所示:
Trie树
从上到下的节点,公共前缀只保存一次。

代码实现

//
//  main.cpp
//  TrieTree
//
//  Created by Alps on 16/4/9.
//  Copyright © 2016年 chen. All rights reserved.
//

#include <iostream>
#include <cstring>
#include <string>

using namespace std;

#ifndef BranchNum
#define BranchNum 26 //记录每个节点的孩子节点最多数量
#endif

class Alps_Trie{
public:
    Alps_Trie(){
        root = new TreeNode();
    }
    void addNode(string str){
        TreeNode *node = root;
        for (int i = 0; i < str.length(); i++) {
            int pos = transToInt(str[i]);
            if (node->children[pos] == NULL) {
                node->children[pos] = new TreeNode();
            }
            node = node->children[pos];
        }
        if (node->flag == 0) {
            node->flag = 1;
        }
    }

    bool searchTree(string str){
        TreeNode * node = root;
        for (int i = 0; i < str.length(); i++) {
            int pos = transToInt(str[i]);
            if (node->children[pos] == NULL) {
                return false;
            }
            node = node->children[pos];
        }
        if (node->flag != 0) {
            return true;
        }
        return false;
    }
private:
    /**
     *  字典树节点结构
     */
    struct TreeNode {
        int flag; //记录单词信息
        TreeNode * children[BranchNum];
        TreeNode(){
            for(int i = 0; i < BranchNum; i++){
                children[i] = NULL;
            }
            flag = 0;
        }
    };

    /**
     *  把每个节点要存储的数据转换成int
     *
     *  @param ch 字符
     *
     *  @return 返回下标
     */
    int transToInt(char ch){
        int temp = ch - 'a';
        return temp;
    }

    /**
     *  char to string
     *
     *  @param arr char
     *
     *  @return string
     */
    string transCharToString(char *arr){
        return string(arr);
    }

    string transIntToString(int num){
        char alps_temp;
        string alps_str = "";
        while (num) {
            alps_temp = num%10 + '0';
            alps_str += alps_temp;
            num/=10;
        }
        return alps_str;
    }

    TreeNode * root;
};




int main(int argc, const char * argv[]) {
    Alps_Trie* root = new Alps_Trie();
    string str;
    cout<<"Please input words in dictionary"<<endl;
    for (int i = 0; i < 3; i++) {
        cin>>str;
        root->addNode(str);
    }
    cout<<"Please input words you want to search"<<endl;
    cin>>str;
    if(root->searchTree(str)){
        cout<<"YES"<<endl;
    }else{
        cout<<"NO"<<endl;
    }
    return 0;
}

其实本来实现比较简单,我为了可扩展,所以特意写的复杂了一点。

无多余空间版本

前面写的是使用数组来定义孩子节点,这样查找速度变为O(1),但是这样有个问题,假如是多叉树,是很容易内存过高的。因为一个节点只有一个孩子,还是要申请最多孩子的空间数量。

下面一个是用链表存储内容的,这样节省空间,只是提高了一定程度上的复杂度。

解决了Hihocoder上面的Trie树

#include <iostream>
#include <cstring>
#include <string>

using namespace std;

/**
 *  字典树节点结构
 */
struct TreeNode {
    int flag; //记录单词信息
    char ch;
    TreeNode *left;
    TreeNode *down;
    TreeNode(){
        flag = 0;
        left = NULL;
        down = NULL;
    }
    TreeNode(char c){
        ch = c;
        flag = 0;
        left = NULL;
        down = NULL;
    }
};

class Alps_Trie{
public:
    Alps_Trie(){
        root = new TreeNode();
    }
    void addNode(string str){
        TreeNode *node = root;
        for (int i = 0; i < str.length(); i++) {
            if(node->down == NULL){
                node->down = new TreeNode(str[i]);
                node = node->down;
                node->flag += 1;
                continue;
            }
            TreeNode *next = findChar(node->down, str[i]);
            if(next == NULL){
                next = new TreeNode(str[i]);
                node = node->down;
                next ->left = node->left;
                node->left = next;
                node = next;
                node->flag += 1;
            }else{
                node = next;
                node->flag += 1;
            }
        }
    }

    int searchTree(string str){
        TreeNode * node = root;
        for (int i = 0; i < str.length(); i++) {
            TreeNode* next = findChar(node->down, str[i]);
            if(next == NULL) return 0;
            node = next;
        }
        if (node->flag != 0) {
            return node->flag;
        }
        return 0;
    }

    TreeNode * findChar(TreeNode *node, char c){
        TreeNode * temp = node;
        while(temp != NULL){
            if(temp->ch == c){
                return temp;
            }
            temp = temp->left;
        }
        return temp;
    }
private:

    TreeNode * root;
};




int main(int argc, const char * argv[]) {
    Alps_Trie root;
    string str;
    int M,N;
    cin>>M;
    for (int i = 0; i < M; i++) {
        cin>>str;
        root.addNode(str);
    }
    cin>>N;
    for (int i = 0;i < N; i++){
        cin>>str;
        cout<<root.searchTree(str)<<endl;
    }

    return 0;
}
/*
测试数据:
5
babaab
babbbaaaa
abba
aaaaabaa
babaababb
5
babb
baabaaa
bab
bb
bbabbaab

求得的是公共前缀的字符串数量,上面5个是插入的字符串,下面5个是查找的
*/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值