18、Python之容器：字典(dict)缺失值处理不够优雅？试试defaultdict

最新推荐文章于 2024-08-20 16:20:53 发布

南宫理的日知录

最新推荐文章于 2024-08-20 16:20:53 发布

阅读量820

点赞数 31

分类专栏：好玩好用的Python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/dqrcsc/article/details/140538721

版权

好玩好用的Python 专栏收录该内容

55 篇文章 0 订阅

订阅专栏

引言

前面我们已经介绍了Python中字典（dict）的使用，在处理字典缺失键时，一种方式是加分支判断处理，但是有点繁琐；另外一种，是使用setdefault()方法，似乎已经简化了缺失值的处理。但是，setdefault()方法，其实还是有两个问题的：
1、setdefault()这个方法的名字比较怪，对不熟悉的童鞋来说，可读性比较差，需要在脑子里绕一会儿，一时半会儿难以理解这个代码要干啥；
2、还是不够高效，代码行数似乎还可以精简

针对缺失键的场景，Python提供了更加好用的工具，这就是collections包中的defaultdict。

本文的主要内容大致如下：
1、回顾一下使用dict在应对缺失值的做法
2、defaultdict的使用

dict缺失键的常规做法

以人员按照年龄的分组计数为例，来说明缺失值的应对场景。
首先生成测试数据，然后以常规的分支判断来统计：

from faker import Faker
from rich import print
fk = Faker('zh_CN')

# 为了数据尽量聚集，我们生成18～28年龄的测试数据
persons = [(fk.unique.name(), fk.random_int(18, 28)) for _ in range(100)]
print(persons)

# 按照年龄统计人数
count_by_age = {}

# 通过判断键值是否存在，分支处理
for name, age in persons:
    if age in count_by_age:
        count_by_age[age] += 1
    else:
        count_by_age[age] = 1

print(count_by_age)

执行结果：

我们也可以试着用前面提到过的setdefault()方法来处理，可以把分支判断的代码省掉：

count_by_age = {}
# 使用setdefault()方法来处理
for name, age in persons:
    cnt = count_by_age.setdefault(age, 0)
    count_by_age[age] += 1
print(count_by_age)

虽然有点奇怪……
接下来试试defaultdict来处理。

defaultdict的使用

简单看下defaultdict的定义：

传入一个default_factory的“函数”，这个函数会在当key不存在时，被调用，用来生成一个新的默认值。

接下来，看下上面的例子，使用defaultdict的实现：

from faker import Faker
from collections import defaultdict

fk = Faker('zh_CN')

# 为了数据尽量聚集，我们生成18～28年龄的测试数据
persons = [(fk.unique.name(), fk.random_int(18, 28)) for _ in range(100)]

# 按照年龄统计人数，这次不使用dict，改用defaultdict
count_by_age = defaultdict(int)

# 通过判断键值是否存在，分支处理
for name, age in persons:
    count_by_age[age] += 1

print(count_by_age)

count_by_age2 = {}
# 使用setdefault()方法来处理
# 用来跟defaultdict处理的结果做对比
for name, age in persons:
    cnt = count_by_age2.setdefault(age, 0)
    count_by_age2[age] += 1
print(count_by_age2)
# 从定义来看，defaultdict与dict中元素相同时，比较时会返回True
print(count_by_age == count_by_age2)

执行结果：

可以看到，使用defaultdict时，我们直接通过索引的方式对不存在的key进行索引并执行更新操作，一行代码就搞定了。

其内部的实现逻辑是，首先判断key不存在时，会通过构造defaultdict对象时，传入的“函数”构造一个默认值，比如：
int()默认会创建一个值为0的整数对象，str()会创建一个值为""的字符串对象。

# 0
print(int())
# ''空字符串
print(str())
# 长度为0
print(len(str()))

其实，当需要进行分组收集时，defaultdict会更加好用。

比如，不同于前面的分组计数，我们这次要把每个年龄的人名都放在一起，放到一个list中，我们通过defaultdict来实现：

from faker import Faker
from rich import print
from collections import defaultdict

fk = Faker('zh_CN')

# 为了数据尽量聚集，我们生成18～28年龄的测试数据
persons = [(fk.unique.name(), fk.random_int(18, 28)) for _ in range(100)]

# 按照年龄分组收集
collect_by_age = defaultdict(list)

# 通过判断键值是否存在，分支处理
for name, age in persons:
    collect_by_age[age].append(name)

print(collect_by_age)

代码中，我们使用list作为工厂函数进行默认值的构造，当key不存在时，创建一个空列表对象。

执行结果：

我们还可以自定义工厂函数来指定默认值，比如，我们默认每个人的年龄都是18：

def default_age():
    return 18

persons = defaultdict(default_age)
print(persons['zs'])
persons['zs'] = 25
print(persons['zs'])

执行结果：

首次访问时，不存在，则会创建默认值18。

前面，之所以在函数上面打了引号，其实并不一定只能是函数，其实，只要是可调用的对象，比如，我们传入一个自定义类名，则会默认调用其__init__方法：

class Student:
    def __init__(self):
        self.name = 'unknown'
        self.age = 0

    def __str__(self):
        return f"Student(name: {self.name}, age: {self.age})"


stus = defaultdict(Student)
print(stus['zs'])
stus['zs'].name = '张三'
stus['zs'].age = 18
print(stus['zs'])

执行结果：

总结

关于字典中缺失值处理的场景，本文首先介绍了dict中常规的分支判断的处理方法，以及通过setdefault()简化分支处理的方法。之后，引入defaultdict，介绍了更加灵活、强大的处理方法。根据实际使用场景，可以自行选择！

南宫理的日知录

关注

31
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
18、Python之容器：字典(dict)缺失值处理不够优雅？试试defaultdict

关于字典中缺失值处理的场景，本文首先介绍了dict中常规的分支判断的处理方法，以及通过setdefault()简化分支处理的方法。之后，引入defaultdict，介绍了更加灵活、强大的处理方法。根据实际使用场景，可以自行选择！
复制链接

扫一扫