inverted_index = defaultdict(set)
是 Python 中一个非常常见、简洁又强大的写法。
✅ 1. 这句话的意思是:
创建一个字典
inverted_index
,它的默认值是一个 空的 set 集合。
也就是说,当你访问某个键时,如果这个键不存在,它就会自动创建一个空集合作为初始值,不用你手动判断或初始化。
🧠 举个通俗比喻:
你可以把它理解成:
“如果这个词还没出现在倒排索引中,那就给它自动准备一个空桶(set)来装文档编号。”
✅ 2. defaultdict(set)
是什么?
它是 Python 标准库 collections
中的一个工具类。
from collections import defaultdict
defaultdict(set)
的行为就像普通的 dict
,但当你访问一个不存在的 key 时,不会报错,而是返回一个空的 set 自动帮你初始化。
✅ 3. 等价写法(对比普通 dict)
我们来看下面这两个版本的对比:
✅ 用 defaultdict(set)
的写法(简洁):
from collections import defaultdict
d = defaultdict(set)
d["hello"].add("doc1")
print(d)
输出:
defaultdict(<class 'set'>, {'hello': {'doc1'}})
❌ 如果用普通的 dict,你就要手动判断 key 是否存在:
d = {}
if "hello" not in d:
d["hello"] = set()
d["hello"].add("doc1")
print(d)
输出:
{'hello': {'doc1'}}
🟡 可以看到:
defaultdict
省去了「if not in」这一步,写法更清爽,非常适合构建倒排索引、分组、统计等场景。
✅ 4. 小结一句话:
defaultdict(set)
是构建倒排索引时的神器,它让我们无需写额外的判断逻辑,就能自动为每个关键词创建一个「装文档ID」的空集合。