Java API 搜索
Parser
public class DocInfo {
private int docId;
private String title;
private String url;
private String content;
}
1.枚举出INPUT_PATH中的所有.html文件
是目录,则递归调用
否则,判断是否为.html文件,是则加入
2.遍历得到文件,读取文件并提取标题、链接、正文
提取标题
文件名-.html
提取链接
http://docs.oracle.com/javase/8/docs/api+文件路径
提取正文
去掉html标签即<>里面的内容
3.将得到的结果以行文本的形式写到输出文件中
以\3连接标题链接和正文,以\n区分不同文件
Index
static public class Weight {
String word;
int docId;
int weight;
}
class WordCnt {
int titleCnt;
int contentCnt;
}
正排索引
文档id -> 文档信息
private ArrayList<DocInfo> forwardIndex = new ArrayList<>();
倒排索引
关键词 -> 含关键词全部文档
private HashMap<String, ArrayList<Weight>> invertedIndex = new HashMap<>();
查找正排
查找倒排
建立正排
依据\3切分行文件,构造DocInfo对象
加入到正排索引中
建立倒排
构造中间结果的HashMap<String, WordCnt> wordCntHashMap
,统计每个文档中,每个词分别在标题和正文的出现次数
对标题分词/对正文分词
分词
List<Term> titleTerms = ToAnalysis.parse(docInfo.getTitle()).getTerms();
遍历分词结果,统计每个词出现次数
更新倒排索引
遍历wordCntHashMap
,依次构建Weight对象,加入到倒排索引中
Searcher
public class Result {
private String title;
private String showUrl;
private String clickUrl;
private String desc;
}
对查询词分词
针对每个词查找倒排索引,得到多个倒排拉链,拼接
排序,按照权重进行降序排序
包装结果
根据Weight.docId查找正排索引 ,得到DocInfo对象,根据DocInfo的内容转化为Result对象,便于输出