原标题:详解 Python 3.8 的海象运算符:大幅提高程序执行效率
编译:机器之心,作者:Animesh Gaitonde
前几个月发布的 Python 3.8 包含了一项重要的新功能,即海象运算符。如果合理运用,该运算符能有效地提升 Python 程序的执行效率。本文将对海象运算符的作用和效果进行介绍,并会通过示例演示其使用方法和不适用的场景。本文作者为软件工程师 Animesh Gaitonde。
自我开始学习 Python 以及利用它的能力以来,我就一直是这门编程语言的死忠粉。Python 句法简单,易于掌握,而且有助于提升代码库的可读性和可维护性。相比于 C、C++、Java 或 Ruby 等其它高级语言,使用 Python 实现一个算法所需的代码量能少 5 倍之多。
最近,Python 社区发布了该语言的 3.8 版本。作为 Python 语法糖的爱好者,我探索了发布说明,关注到了其中一个独特的运算符。这个 运算符被称为「海象运算符(Walrus Operator)」或「命名表达式运算符(Named Expression operator)」,符号为「:=」。
海象运算符
这个新运算符(:=)能让我们为表达式中的一个变量赋值。这个符号看起来颇有些类似于海象的眼睛和犬齿。
我们先来看看下面一段代码:
countries = [“India”, “USA”, “France”, “Germany”] iflen(countries) < 5: print("Length of countries is "+ len(countries))
在上面的代码段中,我们两次调用了函数 len。我们可以避免重复计算以提升可读性吗?当然可以,我们可对这段代码进行如下改进:
country_size = len(countries) ifcountry_size < 5:
print( "Length of countries is "+ country_size)
还有进一步改进的空间吗?我们可以不用单独一行来给「country_size」赋值吗?
ifcountry_size := len(countries) < 5:
print( "Length of countries is "+ country_size)
这就是 Python 3.8 引入的海象运算符的用武之地。我们可以在 if 语句之中直接执行声明和赋值操作。我们下面进一步探索该运算符的能力。
代码行数与复杂度的平衡
先看看以下示例
powers = [get_count, get_count** 2, get_count** 3]
defget_count:
"Fetches count of records from a database"
多次调用一个高成本的函数
上面的示例是通过多次调用一个高成本的函数 get_count 来填充一个列表。
有了海象运算符的帮助,我们可以避免多次调用函数 get_count,其具体的功能是将结果存储到一个变量中,然后我们可在后续的计算中复用同一个变量。下面演示了海象运算符的用法:
powers =[result:= get_count, result** 2, result** 3]
defget_count:
"Fetches count of records from a database"
使用海象预算符避免多次调用函数
从上面的例子可以看到,海象运算符可以减少代码行数,让代码更可读,因此能简化代码审查人员的工作。此外,这也能实现代码行数和代码复杂度的平衡。
解决理解低效的问题
employees = []
forid inemployee_ids:
employee = fetch_employee(id)
ifemployee:
employees.append(employee)
基于一个条件填充列表
上面的示例需要多次执行循环。一开始,我们创建一个空列表,然后在 id 列表上迭代并通过检查结果是否有效来填充我们创建的列表。
我们可以简化上面的代码,将其浓缩为一行:
employees = [result forid inemployee_ids if(result:= fetch_employee(id))]
使用海象运算符避免低效理解
文件分块处理
在处理大文件时,我们会将文件分块读取。每当读取一个分块时,都会检查它的值,并且该值也是 while 循环的终止条件。
chunk = file.read( 256)
whilechunk:
process(chunk)
chunk = file.read( 256)
我们可以在 while 循环表达式中读取数据以及为要读取的数据赋值。由此我们就能避免在 while 循环之外显式地声明变量。如下示例:
whilechunk := file.read( 256) :
process(chunk)
正则表达式匹配
正则表达式匹配是一个两步式过程。第一步是检查是否有匹配,第二步是提取匹配的部分。
obj = re.match(info).group( 1) ifre.match(info) elseNone
正则表达式匹配
从上面的代码可以观察到,我们在一次匹配中重复计算了 re.match(info)。这会减慢该程序的执行速度,而且数据量越大减慢得越明显。上面的代码可以重写为如下形式,从而避免重复计算:
obj = match.group( 1) ifmatch:= re.match(info) elseNone
使用 := 的正则表达式匹配
不能使用海象运算符的地方
为变量赋值
a = 5# 有效
a := 5# 无效
empty_list = [] # 有效
empty_list := [] # 无效
如上所示,我们不能使用 := 替代 =。海象运算符只能是一个表达式的一部分。
加法/减法赋值
a += 5# 有效
a :+= 5# 无效
在 lambda 函数中为表达式赋值
( lambda: a:= 5) # 无效
lambda: (a := 5) # 有效但无用
(var := lambda: 5) # 有效
PEP-572 及其争议
海象运算符是作为 PEP-572(Python 改进提议)的一部分而引入的。如果要为 Python 语言引入一项新功能,总是需要经由 PEP 来实现,而且必须得到 Python 的发明者 Guido van Rossum 或他选择的代表的批准。
围绕海象运算符的争议非常多,而且由此引发的「战争」导致了 Python 之父 Guido van Rossum 告退,不再担任 Python 社区的终身仁慈独裁者(BDFL)。海象预算符的争议点有很多,下面是其中几个:返回搜狐,查看更多
句法变化问题: 开发者们为 := 提议了多种替代方案,比如「表达式 -> NAME」、「NAME -> 表达式」、「{表达式} NAME」等等。 少数人建议使用现有的关键字,其他人则使用了新的运算符。
后向兼容问题: 这个特性无法向后兼容,也无法运行在之前的 Python 版本上。
运算符名称问题: 人们建议不要使用「海象运算符」这样的代号,而是使用「赋值运算符」、「命名表达式运算符」、「成为运算符」等术语,以免人们不明白。
责任编辑: