来源于搜索引擎,海量爬取数据之后,用的是倒排表
海量数据的遍历时间复杂度是O(n)
如何解决:
解决思想:层次过滤, 过滤条件从简单到复杂, 层次间的时间复杂度为递增
先过滤部分,再过滤部分,遍历剩余部分
要知道某个单词存在在哪些文档里面;
具体实施:
建立一张表格,记录所有单词被包含在哪些文档之中;
应用于问答系统:
1、遍历输入的问题,查找每个单词在所有问题中出现的次数;
2、若剩余数量多,可统计两个或者多个单词,在同一个问题中出现的次数;
3、然后进行语句相似度的计算;
4、计算之后,返回相似度最大的问题的答案;