文本文件单词的检索与计数实验准备

最新推荐文章于 2021-03-15 21:30:31 发布

Deerrrrr_

最新推荐文章于 2021-03-15 21:30:31 发布

阅读量151

点赞数

分类专栏：数据结构实践

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Deerrrrr_/article/details/114810132

版权

数据结构实践专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 项目概述
- 1.1 项目目标和主要内容
- 1.2 项目的具体要求
2 项目设计
- 2.1 开发环境
- 2.2 数据结构设计
3 KMP算法理解

1 项目概述

1.1 项目目标和主要内容

建立一个文本文件，统计给定单词在文本文件中出现的总次数及位置

1.2 项目的具体要求

文本文件中每个单词不包含空格且不跨行，单词由字符序列构成且区分大小写，统计给定单词在文本文件中出现的总次数，检索输出的某个单词出现在文本中的行号、在该行中出现的位置。
设计数据量大的文本，进行子串的查询处理，分析算法运行的时间效率，对所有输出的匹配位置结果进行验证，以证明算法设计和实现的正确性。
用朴素模式匹配算法或KMP算法实现字符串定位；
可正确读取，保存文本；

2 项目设计

2.1 开发环境

编程语言：java
编译环境：JDK1.11
开发工具：IntelliJ IDEA 2019

2.2 数据结构设计

逻辑结构设计：集合
存储结构设计：数组

3 KMP算法理解

由于之前并没有接触过KMP算法，因此首先对KMP算法进行了学习与理解。
KMP算法的核心是PMT，PMT是一个被称为部分匹配表的数组，PMT中的值是字符串前缀集合和后缀集合交集中最长元素的长度。
也就是说，在KMP算法进行的过程中，字符串在进行匹配时，当出现失配时，根据此时PMT的值，可以得知目前已匹配成功的字符中的后几个与字符串的前几个相同，因此这几个可以省略重复匹配。
即假如在j位失配，影响j指针回溯位置的是j-1位的PMT值。因此，为了编程方便，在编程时不直接使用PMT数组，而是将PMT数组后移一位，这个数组称为next数组。同样的理由，为了编程方便，将PMT数组后移后，第0位的值就设置为-1。
求next数组的过程可以看成是字符串匹配的过程。即以模式字符串为主字符串，以模式字符串的前缀为目标字符串，一旦字符串匹配成功，那么当前next值就是匹配成功的字符串的长度。也就是从模式字符串的第一位开始对自身进行匹配，注意不包括第0位，这时，在任一位置，能够匹配的最长长度就是当前位置的next值。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
文本文件单词的检索与计数实验准备

1 项目概述1.1 项目目标和主要内容1.2 项目的具体要求2 项目设计2.1 开发环境2.2 数据结构设计3 KMP算法理解1 项目概述1.1 项目目标和主要内容建立一个文本文件，统计给定单词在文本文件中出现的总次数及位置1.2 项目的具体要求文本文件中每个单词不包含空格且不跨行，单词由字符序列构成且区分大小写，统计给定单词在文本文件中出现的总次数，检索输出的某个单词出现在文本中的行号、在该行中出现的位置。设计数据量大的文本，进行子串的查询处理，分析算法运行的时间效率，对所有输出的匹配位置.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。