[原创]关键词搜索算法改进——顺序表字典二分法逐级检索

本文关键词:关键词搜索, 顺序表字典, 二分法, 逐级检索

问题重述:有一个内含有大约40万条常用词汇的词库。现给定一篇文章,使用这个词库分析出常用词汇的出现次数,并按出现次数由高到低排序这些词语。

改进算法的思路:
  1. 通常一篇文章所包含的词语远少于词库中40万的数量;
  2. 数据库建立索引之后,可采用“二分法”对词语进行快速定位;
  3. 逐字缩小查询范围,如果查询到某个字符时范围已经为0,那么可以预测其后的词一定也不存在,(例如查询到forest时已经没有匹配的词了,就可以到此结束)。

该算法将时间复杂度由 O(m*n) 减少为 O( log2(m) * n ) (m为字典词汇数量,n为待搜索文本的长度)。测试结果表明:344KB 文本搜索耗时1.39s,而采用遍历法则需105s,可见速度的提升是很可观的。 
以下是算法的实现:

一、首先,利用文本文件制作词典(二进制文件)。包括导入字符串数据、排序、剔除重复项、创建索引表。

字典文件格式描述如下:

  1. 文件头(16字节):
---------------------------------------------------------------------------
| "MAODICT"字符串(8字节) | 索引区开始位置(4字节) | 索引区结束位置(4字节) |
---------------------------------------------------------------------------

  2. 字符串存储区:

     每条字符串均以'/0'结尾,连续存放。

  3. 索引区:

     每个索引表项格式(5字节):
---------------------------------------------------
| 字符串偏移量(4字节) | 词条长度(1字节) |
---------------------------------------------------

字符串紧跟文件头存放,索引区在字符串存储区之后。

文件头和索引表项结构体:

数据导入代码暂略,详见附件msearch.cpp中的textToBinaryFile()函数。

二、利用创建的字典文件,编写检索程序。SearchTextFile()函数利用传入的文件名打开并进行“内存文件映射”,利用传入的数据流读取文本数据。从某个位置起始,向后组成“词语”进行查询,到一定长度“失配”后,起始位置移到下一个字符。由于数据流不能回退,故需缓存已读取的字符,每次“失配”后将缓冲区向前整体移动一个字符位置(memmove())。算法利用了两个变量:j 用于记录当前字符相对于起始位置的偏移,k 用于记录缓冲区中已读取的字符的数量。

该部分代码如下:

三、二分法逐字检索 是查询程序的核心算法,代码如下:

四、程序的执行效果:

  1. 使用方法:

  2. 运行结果:


==========================================================
 完整的程序和源代码请到这里下载:http://down.chinaz.com/soft/24828.htm
==========================================================

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值