数据结构课设 问题 K: 单词检查(Ⅲ)- Hash表实现

问题 K: 单词检查(Ⅲ)- Hash表实现

题目描述
许多应用程序,如字处理软件,邮件客户端等,都包含了单词检查特性。单词检查是根据字典,找出输入文本中拼错的单词,我们认为凡是不出现在字典中的单词都是错误单词。不仅如此,一些检查程序还能给出类似拼错单词的修改建议单词。 例如字典由下面几个单词组成:
bake cake main rain vase
如果输入文件中有词vake ,检查程序就能发现其是一个错误的单词,并且给出 bake, cake或vase做为修改建议单词。

修改建议单词可以采用如下生成技术:

(1)在每一个可能位置插入‘a-‘z’中的一者
(2)删除单词中的一个字符
(3)用‘a’-'z’中的一者取代单词中的任一字符
很明显拼写检查程序的核心操作是在字典中查找某个单词,如果字典很大,性能无疑是非常关键的。
你写的程序要求读入字典文件,然后对一个输入文件的单词进行检查,列出其中的错误单词并给出修改建议。

本题要求采用hash技术维护字典,hash的实现必须由同学们编码完成,不能采用C++或JAVA的泛型库。
hash函数建议自行设计一个,然后和成熟的hash函数比较,比如下面的ELF hash函数。
/* UNIX ELF hash

  • Published hash algorithm used in the UNIX ELF format for object files
    */
    unsigned long hash(char *name)
    {
    unsigned long h = 0, g;

while ( *name ) {
h = ( h << 4 ) + *name++;
if ( g = h & 0xF0000000 )
h ^= g >> 24;
h &= ~g;
}
return h;
}

另外,请比较线性地址法和链地址法两种冲突处理方法的性能,以及调整hash表大小对性能的影响。

输入
输入分为两部分。
第一部分是字典,每个单词占据一行,最后以仅包含’#'的一行表示结束。所有的单词都是不同的,字典中最多500000个单词。

输入的第二部分包含了所有待检测的单词,单词数目不超过200。每个单词占据一行,最后以仅包含’#'的一行表示结束。

字典中的单词和待检测的单词均由小写字母组成,并且单词最大长度为15。
输出
按照检查次序每个单词输出一行,该行首先输出单词自身。如果单词在字典中出现,接着输出" is correct"。如果单词是错误的,那么接着输出’:‘,如果字典中有建议修改单词,则按照字典中出现的先后次序输出所有的建议修改单词(每个前面都添加一个空格),如果无建议修改单词,在’:'后直接换行。
样例输入

i
is
has
have
be
my
more
contest
me
too
if
award
#
me
aware
m
contest
hav
oo
or
i
fi
mre
#

样例输出

me is correct
aware: award
m: i my me
contest is correct
hav: has have
oo: too
or:
i is correct
fi: i
mre: more me

随着字典加大,对于查找的时间要求就越来越高。
显然就不能用一般的方法了,c++的unorder map和unorder set内部都是哈希表处理,可以做到O1查询;
对于修改单词,我们可以根据输入的S按照题目要求生成一系列串,依次对它们进行查询,题目数据单词的长度最多15,第一种插入最多16*26种情况,后面两种还不如第一种多 撑死了也就1e3数量级 然后再用哈希O1,那么大头就解决了。
但是修改单词要按照加入的顺序进行输出,那么就用结构体pair<string,int> 一个是单词,一个是编号,放进vector里面sort一下再输出就行了。因为同一个单词可能有不同的生成方法(法一和法二可能得到同一个东西)所以set保证不会加入两次,代码如下:

#include <bits/stdc++.h>
using namespace std;
#define endl "\n"
typedef long long ll;
 
unordered_map<string,int>ha;
 
bool cmp(pair<string,int> x,pair<string,int> y)
{
    return x.second<y.second;
}
 
void cmpa(string s,vector<pair<string ,int>> &ans)
{
    unordered_set<string> q;//建立集合哈希避免重复元素加入
    for(int i=0;i<=s.size();i++){//第一种 在任意一个位置插入任意字符
        for(int j=0;j<26;j++){
            string t=s;
            char c ='a'+j;
            string ch(1,c);
            t.insert(i,ch);
            //cout<<s<<" ";
            //cout<<t<<endl;
            if(ha.find(t)!=ha.end()){
                if(q.count(t))continue;
                pair<string,int> a;
                a.first=t;
                a.second=ha[t];
                ans.push_back(a);
                q.insert(a.first);
            }
        }
    }
    
    for(int i=0;i<s.size();i++){//第二种 x删除任意一个位置的字母
        string t=s;
        t.erase(i,1);
        if(ha.find(t)!=ha.end()){
            if(q.count(t))continue;
            pair<string,int> a;
            a.first=t;
            a.second=ha[t];
            ans.push_back(a);
            q.insert(a.first);
        }
    }
 
    for(int i=0;i<s.size();i++){//第三种 x修改任意一个位置的字母为任意值
        for(int j=0;j<26;j++){
            string t=s;
            t[i] ='a'+j;
            if(ha.find(t)!=ha.end()){
                if(q.count(t))continue;
                pair<string,int> a;
                a.first=t;
                a.second=ha[t];
                ans.push_back(a);
                q.insert(a.first);
            }
        }
    }
}
 
 
 
int main()
{
    ios::sync_with_stdio(false);
    string s;
    int id = 0;
    while(cin>>s){
        if(s=="#")break;
        ha[s] = ++id;
    }
    while(cin>>s){
        if(s=="#")break;
        if(ha.find(s)!=ha.end())cout<<s<<" is correct\n";
        else {
            vector<pair<string,int>> ans;
            cmpa(s,ans);
            sort(ans.begin(),ans.end(),cmp);
            cout<<s<<":";
            for(int i=0;i<ans.size();i++){
                cout<<" "<<ans[i].first;
            }
            cout<<endl;
        }
    }
    return 0;
}
  • 7
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

早柚爱睡觉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值