你的算法在一般的输入上执行得很慢。假设您有10个搜索词和包含10000个单词的文本。在这种情况下,每个术语都可能有1000个索引。最终将产生1000^10个总可能性。在
就big-O表示法而言,复杂度是O((n/k)^k),其中n是文本中的项数,k是搜索项的数目。在
这是idea更快的算法。在逐字迭代文档时,我们需要跟踪最接近当前位置的搜索词索引。我们将此结构称为lookup(简单python的dict)。简单示例:"hello there my name is dominic and >my< name is very special"
假设我们要访问突出显示的“我的”单词。此时查找是{“my”:2,“dominic”:5}。当前的“我的”将更接近文本中的任何其他单词。所以当访问下一个单词(“name”)时,我们将更新版本{“my”:7,“dominic”:5}。很容易看出,最优解对应于查找状态之一。所以要得到答案,只需跟踪字典中值的max()-min()。注意:只有当所有搜索项都将作为查找键出现时,才应该开始跟踪。在
在每次搜索项出现时,我们需要迭代位置查找中的k值,因此该算法的复杂度为O(nk)。在
为了使其更好,您还可以将balanced BST与lookup中的索引一起使用。现在,您可以在O(logk)中检索min index,而不是迭代查找值(O(k)):
^{pr2}$
在这种情况下,总复杂度为O(nlogk)。在
编辑。没有树优化的代码(在Python中没有找到内置的BST):document = "hello there my name is domi