爬虫:
网络机器人,网络爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。
信息检索的过程
1.建立文本库
2.建立索引
3.进行搜索
4.返回结果前,对结果进行过滤
倒排索引
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。
网络机器人,网络爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。
1.建立文本库
2.建立索引
3.进行搜索
4.返回结果前,对结果进行过滤
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。