大概是种新的用于海量单词处理的数据结构?

不太明白,程序小白,不太懂,请轻点喷,这是个自己写simhash时想到的兼顾效率和可读性以及方便调试的结构,基于普通字典树,要是有大佬早就造出来了那可以告诉我

struct fr
{
    int ti;
    int suo;
    char ma[100];
}Fre[C];

定义部分,suo是索引,方便处理数据,例如排序后重新找到数据,ma记录单词,ti记录出现次数

下面是使用

    while (i < ll)//处理article
    {
        if ((s[i] >= 'A' && s[i] <= 'Z') || (s[i] >= 'a' && s[i] <= 'z'))
        {
            temp = (s[i] <= 'Z') ? s[i] - 'A' : s[i] - 'a';
            if (!Trie[p][temp])
                Trie[p][temp] = ++pos;//字典树生成,p指向词频统计数组Freqc
            p = Trie[p][temp];
            flag2 = 1;//flag2避免在读入其他字符时重复增加一个单词的量
            temw[top++] = temp+'a';
        }
        else
        {
            if (flag2)
            {
                test[p]++;

                a[j][p]++;
                Fre[p].ti++;//词频数量++
                if(Fre[p].ma[0]==0)
                strcpy(Fre[p].ma, temw);
                memset(temw, 0, sizeof(temw));
                top = 0;
                flag2 = 0;
                p = 0;

            }
        }
        if (s[i] == '\f')
        {

            memset(test, 0, sizeof(test));
            js();//结算
        }
        i++;
    }

从s数组中读入记录进字典树,快排后可以按照字典及词频顺序输出,效果如下1feebaebabf8457a9ab46ab6ae1db3f3.png

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值