Mysql、XML、JSON这些类型的数据都是结构化数据,一本小说、一篇文章是非结构化数据
Lucene官网:http://lucene.apache.org/
放到索引库里的有索引和原始文档,通过索引来查询原始文档,因此索引库由索引和原始文档组成。
域(Field)就是属性,一个域存放一个属性
比如:从文件名拆分出来的Term和从内容中拆分出的Term,哪怕是同一个单词,也不是同一个Term。
正排索引结构:通过文档找内容;倒排索引结构:通过内容找文档
Mysql、XML、JSON这些类型的数据都是结构化数据,一本小说、一篇文章是非结构化数据
Lucene官网:http://lucene.apache.org/
放到索引库里的有索引和原始文档,通过索引来查询原始文档,因此索引库由索引和原始文档组成。
域(Field)就是属性,一个域存放一个属性
比如:从文件名拆分出来的Term和从内容中拆分出的Term,哪怕是同一个单词,也不是同一个Term。
正排索引结构:通过文档找内容;倒排索引结构:通过内容找文档