经典的检索模型如下:
主要分为几个部分:
1. index 部分:
对文档库进行切词、停词、然后进行term 的权重计算,最后形成倒排索引。
2. 用户query检索
用户输入query,然后对这个query进行处理,这里不把query expansion等技术考虑在内,假设query是已经提交的。
同样对query进行停词、分词,计算term权重,然后进行索引遍历,经过过滤和排序最后得到一个doc list返回给用户。
(图片参考百度计算广告课件)
经典的检索模型如下:
主要分为几个部分:
1. index 部分:
对文档库进行切词、停词、然后进行term 的权重计算,最后形成倒排索引。
2. 用户query检索
用户输入query,然后对这个query进行处理,这里不把query expansion等技术考虑在内,假设query是已经提交的。
同样对query进行停词、分词,计算term权重,然后进行索引遍历,经过过滤和排序最后得到一个doc list返回给用户。
(图片参考百度计算广告课件)