inverted_index = defaultdict(set) 是 Python 中一个非常常见、简洁又强大的写法

inverted_index = defaultdict(set) 是 Python 中一个非常常见、简洁又强大的写法。

✅ 1. 这句话的意思是:

创建一个字典 inverted_index,它的默认值是一个 空的 set 集合

也就是说,当你访问某个键时,如果这个键不存在,它就会自动创建一个空集合作为初始值,不用你手动判断或初始化。


🧠 举个通俗比喻:

你可以把它理解成:

“如果这个词还没出现在倒排索引中,那就给它自动准备一个空桶(set)来装文档编号。”


✅ 2. defaultdict(set) 是什么?

它是 Python 标准库 collections 中的一个工具类。

from collections import defaultdict

defaultdict(set) 的行为就像普通的 dict但当你访问一个不存在的 key 时,不会报错,而是返回一个空的 set 自动帮你初始化


✅ 3. 等价写法(对比普通 dict)

我们来看下面这两个版本的对比:

✅ 用 defaultdict(set) 的写法(简洁):

from collections import defaultdict

d = defaultdict(set)
d["hello"].add("doc1")
print(d)

输出:

defaultdict(<class 'set'>, {'hello': {'doc1'}})

❌ 如果用普通的 dict,你就要手动判断 key 是否存在:

d = {}
if "hello" not in d:
    d["hello"] = set()
d["hello"].add("doc1")
print(d)

输出:

{'hello': {'doc1'}}

🟡 可以看到:defaultdict 省去了「if not in」这一步,写法更清爽,非常适合构建倒排索引、分组、统计等场景。


✅ 4. 小结一句话:

defaultdict(set) 是构建倒排索引时的神器,它让我们无需写额外的判断逻辑,就能自动为每个关键词创建一个「装文档ID」的空集合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值