自然语言处理基于java实现(3) 之信息检索

最新推荐文章于 2024-08-17 11:17:54 发布

2017不平凡的一年

最新推荐文章于 2024-08-17 11:17:54 发布

阅读量3k

点赞数 1

分类专栏：自然语言处理文章标签： java 自然语言处理索引文档信息检索

本文链接：https://blog.csdn.net/qq_31082937/article/details/69367634

版权

本文档详细介绍了如何使用Java实现信息检索，包括在小文档集合199801.txt中创建索引文件，以及构建位置索引文件的过程。内容涵盖了分段编号、分词、索引数据结构的设计与实现。

摘要由CSDN通过智能技术生成

一. 题目如下
1、在小文档集合（199801.txt）中建立一个索引文件：每一行是一条term，每个term后面跟着一个索引记录表，包括：文档频率、文档序号（对文档序号进行排序）；整个索引对term进行排序。
考虑：Term如何定义？
2、基于上述小文档集（199801.txt），建立一个位置索引文件。

199801.txt文档集截图:
这里写图片描述
索引文件结果效果如下图:

索引文件表结构:
词出现次数包含该词的段落个数段落x… 段落x…中出现词次数
比如图中:”一代” 出现28次包含该词的段落有21个,其中第3段出现一次,第108段出现两次
二. 实现目标
1. 分段编号,分词
2. 构建索引的数据结构
3. 构建索引

三. 实现步骤
1.段落编号,仔细观察,文档已经给我们分好段了

这里写图片描述
2.分词,不多解释了,有疑问,请看第一篇自然语言处理基于java实现(1) 之中文分词
3.索引数据结构
1)词条,何为词条?
如上图中”一代”,那一行数据就为一条词条
词条数据结构如下

/**
 *词条
 */
public class Term implements Comparable<Term>{
    //单词
    private String word;
    //包含该单词的文档个数
    private int ndoc;
    //单词出现的次数
    private int freq;
    //单词对应的文档的次数
    //          文档id    单词次数
    private Map<Integer,Integer> map =