python setdefault函数_Python——用setdefault处理找不到的键

最新推荐文章于 2024-03-01 15:36:16 发布

weixin_39620065

最新推荐文章于 2024-03-01 15:36:16 发布

阅读量227

点赞数

文章标签： python setdefault函数

注：对《流畅的python》第三章，用setdefault处理找不到的键，的解析

当字典 d[k] 不能找到正确的键的时候，Python 会抛出异常。

也许可以用 d.get(k, default) 来代替 d[k]，给找不到的键一个默认的返回值（这比处理 KeyError 要方便不少）。但是要更新某个键对应的值的时候，不管使用__getitem__还是 get都会不自然，而且效率低。就像示例 3-2 中的还没有经过优化的代码所显示的那样，dict.get并不是处理找不到的键的最好方法。

一般的解决方法

示例 3-2　这段程序从索引中获取单词出现的频率信

息，并把它们写进对应的列表里

#创建一个从单词到其出现情况的映射

import sys

import re

WORD_RE = re.compile(r'\w+')❶

index = {}

with open(sys.argv[1], encoding='utf-8') as fp:❷

for line_no, line in enumerate(fp, 1):❸

for match in WORD_RE.finditer(line):❹

word = match.group()❺

column_no = match.start() + 1❻

location = (line_no, column_no)#记录单词所在的行和列

# 这其实是一种很不好的实现，这样写只是为了证明论点

occurrences = index.get(word, [])

#通过get函数，获得字典里word对应的值，如果没找到word（还没有记录），则返回[]

occurrences.append(location) #将单词的位置加到位置list的后面

index[word] = occurrences #将字典中word对应的列表进行更新

# 以字母顺序打印出结果

for word in sorted(index, key=str.upper):

print(word, index[word])

示例 3-3　这里是示例3-2 的不完全输出，每一行的列表都代表一

个单词的出现情况，列表中的元素是一对值，第一个值表示出现的

行，第二个表示出现的列

$ python3 index0.py ../../data/zen.txt

a [(19, 48), (20, 53)]

Although [(11, 1), (16, 1), (18, 1)]

ambiguity [(14, 16)]

be [(15, 14), (16, 27), (20, 50)]

Beautiful [(3, 1)]

...

❶'\w+'正则表达式

正则表达式中的'\w+'

（1）对于Unicode（str类型）模式：匹配任何Unicode的单词字符，基本上所有语言的字符都可以匹配，当然也包括数字和下划线；如果开启了re.ASCII标志，就只匹配[a-zA-Z0-9]

（2）对于8位（bytes类型）模式：匹配ASCII中定义的字母数字，即[a-zA-Z0-9]

此处我觉得应该就是（2）

❷sys.argv

sys.argv是传递给Python脚本的命令行参数列表。argv[0]是脚本名称（依赖于操作系统，无论这是否是完整路径名）。如果使用-c解释器的命令行选项执行命令，argv[0]则将其设置为字符串' -c'。如果没有脚本名称传递给Python解释器，argv[0]则为空字符串。

举例

$ python hello.py

>>> print(sys.agrv)

['hello.py']

$ python hello.py world

>>> print(sys.argv)

['hello.py', 'world']

$ python hello.py world hello

>>> print(sys.argv)

['hello.py', 'world', 'hello']

with open(sys.argv[1], encoding='utf-8') as fp这句话就是以utf-8文件模式打开sys.argv[1]文件，将文件开头的位置传给fp参数

❸enumerate()函数

enumerate()函数用于将一个可遍历的数据对象（如字符串、元组、列表）组合成一个索引序列，同时列出数据下标和数据（一般用在for循环当中）

语法：enumerate(seq, [start =0])

seq：一个序列、迭代器或其他支持迭代对象

start：下标起始的位置（一般默认为0）

>>> number = ['one', 'two', 'three']

>>> list(enumerate(number))

[(0, 'one'), (1, 'two'), (2, 'three')]

>>> list(enumerate(number, start = 2))

[(2, 'one'), (3, 'two'), (4, 'three')]

#for 循环使用enumerate

>>> for i, element in enumerate(seq):

··· print i, element

···

0 one

1 two

2 three

❹finditer()函数

re.finditer(pattern, string, flags = 0)

在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回

import re

it = re.finditer(r"\d+", "123abc456def789")

for match in it:

print(match.group())

输出结果：

123

456

789

❺match.group()正则表达式

我们使用group(num)或groups()匹配对象函数来获取匹配表达式

group(num = 0)：匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。

groups()：返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

❻正则表达式start()和end()

start([group])方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为0；

end([group])方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为0；

采用setdefault的更好的解决方法

示例 3-4 用dict.setdefault就解决了获取和更新单词的出现情况列表

#创建从一个单词到其出现情况的映射

import sys

import re

WORD_RE = re.compile(r'\w+')

index = {}

with open(sys.argv[1], encoding='utf-8') as fp:

for line_no, line in enumerate(fp, 1):

for match in WORD_RE.finditer(line):

word = match.group()

column_no = match.start()+1

location = (line_no, column_no)

index.setdefault(word, []).append(location) ➊

# 以字母顺序打印出结果

for word in sorted(index, key=str.upper):

print(word, index[word])

➊获取单词的出现情况列表，如果单词不存在，把单词和一个空列表放进映射，然后返回这个空列表，这样就能在不进行第二次查找的情况下更新列表了

也就是说，这样写

my_dict.setdefault(key, []).append(new_value)

与这样写

if key not in my_dict:

my_dict[key] = []

my_dict[key].append(new_value)

二者的效果是一样的，只不过后者至少要进行两次键查询——如果键不存在的话，就是三次，用setdefault只需要一次就可以完成整个操作。

（转载自https://blog.csdn.net/qq_43168521/article/details/103027871）

weixin_39620065

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python setdefault函数_Python——用setdefault处理找不到的键

注：对《流畅的python》第三章，用setdefault处理找不到的键，的解析当字典 d[k] 不能找到正确的键的时候，Python 会抛出异常。也许可以用 d.get(k, default) 来代替 d[k]，给找不到的键一个默认的返回值（这比处理 KeyError 要方便不少）。但是要更新某个键对应的值的时候，不管使用__getitem__还是 get都会不自然，而且效率低。就像示例 3-2...
复制链接

扫一扫