首先说一下,一般将两个list合并,可以用extend,比如x.extend(y)就把x和y两个list合并为一个list,返回None。
在倒排索引的搜索代码中遇到的问题是:
如果查询多个单词,每个单词所在文件的文件名组成了一个set,这些set组成了一个list,要将这些set合并,得出同时包含这些单词的文档名。
下面是搜索的代码:
def mul_search(inverted, mquery):
"""
Return a set of documents
id that contains all the words
"""
words = []
word = ''
results = []
temp = set()
for index,word in
word_index(query):
if word in inverted.keys():
words.append(word)
for word in words:
temp = set(inverted[word].keys())
results.append(temp)
results = reduce(lambda
x,y:x&y,results) if results else []
return results
所用的方法就是lambda+reduce。
标橙的部分解决了合并list中set元素的问题,lambda用来定义一个简单的函数,输入参数有x和y,lambda
x,y:x&y==>f(x,y)=x&y,reduce是针对results中的所有元素,完成lambda函数功能,最后输出的格式由results中元素格式决定。在上面的代码中,results中元素已经是set,所以最后输出set,也就不存在重复结果了。
如果results中为list元素,最后可以在reduce外面加一层set来过滤重复元素。