基于二分查找的单词匹配

最新推荐文章于 2021-07-30 14:34:09 发布

大的小橘子

最新推荐文章于 2021-07-30 14:34:09 发布

阅读量765

点赞数 4

分类专栏： C语言算法设计分析文章标签：算法设计分析 C语言 C语言程序设计

本文链接：https://blog.csdn.net/weixin_42098924/article/details/102716647

版权

算法设计分析同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

C语言

7 篇文章 0 订阅

订阅专栏

基于二分查找的单词匹配

1、二分查找介绍
以升序数列为例，比较一个元素与数列中的中间位置的元素的大小，如果比中间位置的元素大，则继续在后半部分的数列中进行二分查找；如果比中间位置的元素小，则在数列的前半部分进行比较；如果相等，则找到了元素的位置。每次比较的数列长度都会是之前数列的一半，直到找到相等元素的位置或者最终没有找到要找的元素。

2、匹配算法介绍
分为四部分，第一是二分查找的核心，上面已经介绍了。

int binarysearch(int low, int high, char *key) {//key为输入的单词
    int mid = 0;
    while (low <= high) {
        mid = (low + high) / 2;
        if (strcmp(key, dict[mid].word) == 0) {//匹配成功
            return mid;
        } else if (strcmp(key, dict[mid].word) > 0) {//key大于当前匹配到的单词，则从该单词开始的后一部分继续匹配
            low = mid + 1;
        } else {//key小于当前匹配到的单词，则从该单词开始的前一部分继续匹配
            high = mid - 1;
        }
    }
    return -1;//匹配不到返回-1
}

第二是文件的读取，准备了一个单词文件，里面有单个单词，也有以词组的形式存在，需要特别处理的是词组的读取，因为词组中存在空格，要是用scanf的话只能一个一个的读取，无法一部达到读取词组的效果，因此采用了以下的方法。

void readdict(char dictname[]) {
    char item[64];
    int i;
    FILE *f = fopen(dictname, "r");
    for (i=0; i < N; ++i) {//N为单词文件ps_ec.txt的长度
        fscanf(f, "%s", dict[i].word);
        while (fscanf(f, "%s", item), isalpha(item[0]) > 0) {//isalpha()判断输入的是字母
            strcat(dict[i].word, " ");//字符串拼接
            strcat(dict[i].word, item);
        }
        strcpy(dict[i].meaning, item);//单词中文解释
    }
    fclose(f);
}

第三是单词的查找部分，通过接收二分查找模块返回的值，然后根据返回值判断是否匹配到相应的单词。

void find(char word[64]) {
    int dect=binarysearch(0, N - 1, word);//二分查找模块返回值
    if(dect!=-1) {
        printf("\t%s\n",dict[dect].meaning);//输出匹配的单词解释
    } else {
        printf("无匹配单词！\n");
    }
}

第四是main函数模块，这个程序实在Linux环境下执行的，因此在main中多了两个要用到的参数。

int main(int argc, char *argv[]) {//argc记录命令行中输入的字符串个数，argv存入输入的单词
    char word[64];
    if (argc < 1)//输入小于2
        return 1;
    readdict(argv[1]);//读取单词文件
    while (fgets(word, 63, stdin) > 0) {//fgets(输入的单词，限定长度，标准输入)
        word[strlen(word) - 1] = '\0';//去掉换行符
        find(word);//调用查找模块
    }
}

3、完整代码

#include <stdio.h>
#include <string.h>
#include <ctype.h>

#define N 660

typedef struct {
    char word[64];
    char meaning[128];
} node;

node dict[N];

int binarysearch(int low, int high, char *key) {//key为输入的单词
    int mid = 0;
    while (low <= high) {
        mid = (low + high) / 2;
        if (strcmp(key, dict[mid].word) == 0) {//匹配成功
            return mid;
        } else if (strcmp(key, dict[mid].word) > 0) {//key大于当前匹配到的单词，则从该单词开始的后一部分继续匹配
            low = mid + 1;
        } else {//key小于当前匹配到的单词，则从该单词开始的前一部分继续匹配
            high = mid - 1;
        }
    }
    return -1;//匹配不到返回-1
}


void find(char word[64]) {
    int dect=binarysearch(0, N - 1, word);//二分查找模块返回值
    if(dect!=-1) {
        printf("\t%s\n",dict[dect].meaning);//输出匹配的单词解释
    } else {
        printf("无匹配单词！\n");
    }
}

void readdict(char dictname[]) {
    char item[64];
    int i;
    FILE *f = fopen(dictname, "r");
    for (i=0; i < N; ++i) {//N为单词文件ps_ec.txt的长度
        fscanf(f, "%s", dict[i].word);
        while (fscanf(f, "%s", item), isalpha(item[0]) > 0) {//isalpha()判断输入的是字母
            strcat(dict[i].word, " ");//字符串拼接
            strcat(dict[i].word, item);
        }
        strcpy(dict[i].meaning, item);//单词中文解释
    }
    fclose(f);
}

int main(int argc, char *argv[]) {//argc记录命令行中输入的字符串个数，argv存入输入的单词
    char word[64];
    if (argc < 1)//输入小于2
        return 1;
    readdict(argv[1]);//读取单词文件
    while (fgets(word, 63, stdin) > 0) {//fgets(输入的单词，限定长度，标准输入)
        word[strlen(word) - 1] = '\0';//去掉换行符
        find(word);//调用查找模块
    }
}