基于二分查找的单词匹配
1、二分查找介绍
以升序数列为例,比较一个元素与数列中的中间位置的元素的大小,如果比中间位置的元素大,则继续在后半部分的数列中进行二分查找;如果比中间位置的元素小,则在数列的前半部分进行比较;如果相等,则找到了元素的位置。每次比较的数列长度都会是之前数列的一半,直到找到相等元素的位置或者最终没有找到要找的元素。
2、匹配算法介绍
分为四部分,第一是二分查找的核心,上面已经介绍了。
int binarysearch(int low, int high, char *key) {//key为输入的单词
int mid = 0;
while (low <= high) {
mid = (low + high) / 2;
if (strcmp(key, dict[mid].word) == 0) {//匹配成功
return mid;
} else if (strcmp(key, dict[mid].word) > 0) {//key大于当前匹配到的单词,则从该单词开始的后一部分继续匹配
low = mid + 1;
} else {//key小于当前匹配到的单词,则从该单词开始的前一部分继续匹配
high = mid - 1;
}
}
return -1;//匹配不到返回-1
}
第二是文件的读取,准备了一个单词文件,里面有单个单词,也有以词组的形式存在,需要特别处理的是词组的读取,因为词组中存在空格,要是用scanf的话只能一个一个的读取,无法一部达到读取词组的效果,因此采用了以下的方法。
void readdict(char dictname[]) {
char item[64];
int i;
FILE *f = fopen(dictname, "r");
for (i=0; i < N; ++i) {//N为单词文件ps_ec.txt的长度
fscanf(f, "%s", dict[i].word);
while (fscanf(f, "%s", item), isalpha(item[0]) > 0) {//isalpha()判断输入的是字母
strcat(dict[i].word, " ");//字符串拼接
strcat(dict[i].word, item);
}
strcpy(dict[i].meaning, item);//单词中文解释
}
fclose(f);
}
第三是单词的查找部分,通过接收二分查找模块返回的值,然后根据返回值判断是否匹配到相应的单词。
void find(char word[64]) {
int dect=binarysearch(0, N - 1, word);//二分查找模块返回值
if(dect!=-1) {
printf("\t%s\n",dict[dect].meaning);//输出匹配的单词解释
} else {
printf("无匹配单词!\n");
}
}
第四是main函数模块,这个程序实在Linux环境下执行的,因此在main中多了两个要用到的参数。
int main(int argc, char *argv[]) {//argc记录命令行中输入的字符串个数,argv存入输入的单词
char word[64];
if (argc < 1)//输入小于2
return 1;
readdict(argv[1]);//读取单词文件
while (fgets(word, 63, stdin) > 0) {//fgets(输入的单词,限定长度,标准输入)
word[strlen(word) - 1] = '\0';//去掉换行符
find(word);//调用查找模块
}
}
3、完整代码
#include <stdio.h>
#include <string.h>
#include <ctype.h>
#define N 660
typedef struct {
char word[64];
char meaning[128];
} node;
node dict[N];
int binarysearch(int low, int high, char *key) {//key为输入的单词
int mid = 0;
while (low <= high) {
mid = (low + high) / 2;
if (strcmp(key, dict[mid].word) == 0) {//匹配成功
return mid;
} else if (strcmp(key, dict[mid].word) > 0) {//key大于当前匹配到的单词,则从该单词开始的后一部分继续匹配
low = mid + 1;
} else {//key小于当前匹配到的单词,则从该单词开始的前一部分继续匹配
high = mid - 1;
}
}
return -1;//匹配不到返回-1
}
void find(char word[64]) {
int dect=binarysearch(0, N - 1, word);//二分查找模块返回值
if(dect!=-1) {
printf("\t%s\n",dict[dect].meaning);//输出匹配的单词解释
} else {
printf("无匹配单词!\n");
}
}
void readdict(char dictname[]) {
char item[64];
int i;
FILE *f = fopen(dictname, "r");
for (i=0; i < N; ++i) {//N为单词文件ps_ec.txt的长度
fscanf(f, "%s", dict[i].word);
while (fscanf(f, "%s", item), isalpha(item[0]) > 0) {//isalpha()判断输入的是字母
strcat(dict[i].word, " ");//字符串拼接
strcat(dict[i].word, item);
}
strcpy(dict[i].meaning, item);//单词中文解释
}
fclose(f);
}
int main(int argc, char *argv[]) {//argc记录命令行中输入的字符串个数,argv存入输入的单词
char word[64];
if (argc < 1)//输入小于2
return 1;
readdict(argv[1]);//读取单词文件
while (fgets(word, 63, stdin) > 0) {//fgets(输入的单词,限定长度,标准输入)
word[strlen(word) - 1] = '\0';//去掉换行符
find(word);//调用查找模块
}
}
4、相关文件:Github