Java API 搜索

Java API 搜索

Parser

public class DocInfo {
    private int  docId;
    private String title;
    private String url;
    private String content;
}
1.枚举出INPUT_PATH中的所有.html文件

是目录,则递归调用

否则,判断是否为.html文件,是则加入

2.遍历得到文件,读取文件并提取标题、链接、正文
提取标题

文件名-.html

提取链接
http://docs.oracle.com/javase/8/docs/api+文件路径
提取正文

去掉html标签即<>里面的内容

3.将得到的结果以行文本的形式写到输出文件中

以\3连接标题链接和正文,以\n区分不同文件

Index

static public class Weight {
        String word;
        int docId;
        int weight;
}
class WordCnt {
    int titleCnt;
    int contentCnt;
 }

正排索引

文档id -> 文档信息

private ArrayList<DocInfo> forwardIndex = new ArrayList<>();
倒排索引

关键词 -> 含关键词全部文档

private HashMap<String, ArrayList<Weight>> invertedIndex = new HashMap<>();
查找正排
查找倒排
建立正排

依据\3切分行文件,构造DocInfo对象

加入到正排索引中

建立倒排

构造中间结果的HashMap<String, WordCnt> wordCntHashMap,统计每个文档中,每个词分别在标题和正文的出现次数

对标题分词/对正文分词

分词

List<Term> titleTerms = ToAnalysis.parse(docInfo.getTitle()).getTerms();

遍历分词结果,统计每个词出现次数

更新倒排索引

遍历wordCntHashMap,依次构建Weight对象,加入到倒排索引中

Searcher

public class Result {
    private String title;
    private String showUrl;
    private String clickUrl;
    private String desc;
}

对查询词分词
针对每个词查找倒排索引,得到多个倒排拉链,拼接
排序,按照权重进行降序排序
包装结果

根据Weight.docId查找正排索引 ,得到DocInfo对象,根据DocInfo的内容转化为Result对象,便于输出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值