软件实习项目三——文本文件单词的检索与计数

实验内容

建立一个文本文件,统计给定单词在文本文件中出现的总次数及位置。

实验要求

  1. 文本文件中每个单词不包含空格且不跨行,单词由字符序列构成且区分大小写,统计给定单词在文本文件中出现的总次数,检索输出的某个单词出现在文本中的行号、在该行中出现的位置。

  2. 设计数据量大的文本,进行子串的查询处理,分析算法运行的时间效率,对所有输出的匹配位置结果进行验证,以证明算法设计和实现的正确性。

  3. 用朴素模式匹配算法或KMP算法实现字符串定位;

  4. 可正确读取,保存文本;

编程语言及开发环境
编程语言:JAVA
开发环境:IntelliJ IDEA 2020.3.2

实验思路

一、朴素模式匹配算法

简单讲就是把模式串跟母串从左向右或从右向左一点一点比较:先把模式串的第一个字符同母串的第一个字符比较,若相等则接着比较后面的对应字符;若不等,把模式串后移一个位置,再次从模式串的头部比较。
假设主串的长度为N,待匹配串的长度为M,因为需要遍历主串,每次匹配的长度都小于等于M,所以它的时间复杂度是O(M*N)的。

二、KMP模式匹配算法

操作流程:

  • 假设现在文本串·S 匹配到 i 位置,模式串 P 匹配到j位置

  • 如果j = -1,或者当前字符匹配成功(即 S[i] == P[j] ),都令i++j++,继续匹配下一个字符; 如果 j != -1,且当前字符匹配失败(即S[i] != P[j] ),则令i不变,j = next[j]。此举意味着失配时,模式串 P相对于文本串S 向右移动了j - next [j]

  • 换言之,将模式串 P失配位置的next数组的值对应的模式串 P 的索引位置移动到失配处

三、KMP算法的时间复杂度:

  • 计算Partial_Table(或者说是计算模式串的最长公共前缀后缀长度列表)时的比较次数介于[m,2m],假设m时模式串的长度.

  • 比较模式串和子串时比较次数介于[n,2n],最坏情形形如T="aaaabaaaab",P="aaaaa".

  • 所以算法时间复杂度时O(m+n)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L丶丨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值