Java API 搜索

最新推荐文章于 2023-04-01 14:31:28 发布

是澜澜呀

最新推荐文章于 2023-04-01 14:31:28 发布

阅读量595

点赞数

分类专栏： Java 文章标签：搜索引擎 java

本文链接：https://blog.csdn.net/weixin_43217281/article/details/108587714

版权

Java 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

Java API 搜索

Parser

public class DocInfo {
    private int  docId;
    private String title;
    private String url;
    private String content;
}

1.枚举出INPUT_PATH中的所有.html文件

是目录，则递归调用

否则，判断是否为.html文件，是则加入

2.遍历得到文件，读取文件并提取标题、链接、正文

提取标题

文件名-.html

提取链接

http://docs.oracle.com/javase/8/docs/api+文件路径

提取正文

去掉html标签即<>里面的内容

3.将得到的结果以行文本的形式写到输出文件中

以\3连接标题链接和正文，以\n区分不同文件

Index

static public class Weight {
        String word;
        int docId;
        int weight;
}

class WordCnt {
    int titleCnt;
    int contentCnt;
 }

正排索引

文档id -> 文档信息

private ArrayList<DocInfo> forwardIndex = new ArrayList<>();

倒排索引

关键词 -> 含关键词全部文档

private HashMap<String, ArrayList<Weight>> invertedIndex = new HashMap<>();

查找正排

查找倒排

建立正排

依据\3切分行文件，构造DocInfo对象

加入到正排索引中

建立倒排

构造中间结果的HashMap<String, WordCnt> wordCntHashMap，统计每个文档中，每个词分别在标题和正文的出现次数

对标题分词/对正文分词

分词

List<Term> titleTerms = ToAnalysis.parse(docInfo.getTitle()).getTerms();

遍历分词结果，统计每个词出现次数

更新倒排索引

遍历wordCntHashMap，依次构建Weight对象，加入到倒排索引中

Searcher

public class Result {
    private String title;
    private String showUrl;
    private String clickUrl;
    private String desc;
}

对查询词分词

针对每个词查找倒排索引，得到多个倒排拉链，拼接

排序，按照权重进行降序排序

包装结果

根据Weight.docId查找正排索引，得到DocInfo对象，根据DocInfo的内容转化为Result对象，便于输出

是澜澜呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录