定义
顾名思义,过滤器。Python内建的filter()函数用于过滤序列。
和map()类似,filter()也接收一个函数和一个序列。和map()不同的是,filter()把传入的函数依次作用能与每个元素,然后年后根据返回值是True还是False决定保留还是丢弃该元素。
比如说,删除偶数,保留奇数
def is_odd(n):
return n % 2 == 1
list(filter(is_odd, [1, 2, 4, 5, 6, 9, 10, 15]))
# 结果: [1, 5, 9, 15]
又或者删除一个序列中的空字符串:
def not_empty(s):
return s and s.strip()
list(filter(not_empty, ['A', '', 'B', None, 'C', ' ']))
# 结果: ['A', 'B', 'C']
这边这个not_empty函数非常有意思。
filter是依次传入各个元素,所以,s和s.strip()进行与运算即可判断是否是空字符串。
Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。
因为strip()函数默认情况下会删除开头或者结尾的空格或换行符。所以如果被删除了,与运算结果就为false。
可见用fileter()这个高阶函数,关键在于正确实现一个“筛选”函数。
注意到filter()函数返回的是一个Iterator,也就是一个惰性序列,所以要强迫filter()完成计算结果,就需要用到list()函数获得所有结果并返回list。
用filter求素数
计算素数的一个方法是埃氏筛法,它的算法理解起来非常简单:
首先,列出从2开始的所有自然数,构造一个序列:
2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
取序列的第一个数2,它一定是素数,然后用2把序列的2的倍数筛掉:
3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
取新序列的第一个数3,它一定是素数,然后用3把序列的3的倍数筛掉:
5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
取新序列的第一个数5,然后用5把序列的5的倍数筛掉:
7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
不断筛下去,就可以得到所有的素数。
用Python实现这个算法,可以先构造一个从3开始的奇数序列:
def _odd_iter():
n = 1
while True:
n += 2
yield n
这是一个生成器,并且是一个无限序列
定义一个筛选函数:
此处不太理解:(需要传两个参数这样的话)
def _not_divisible(n):
return lambda x: x % n > 0
最后,定义一个生成器,不断返回下一个素数:
def primes():
yield 2
it = _odd_iter() # 初始序列
while True:
n = next(it) # 返回序列的第一个数
yield n
it = filter(_not_divisible(n), it) # 构造新序列
到这里就明白了不理解之处,filter中的函数,是以函数调用的形式出现的
这个生成器先返回第一个素数2, 然后,利用filter()不断产生筛选后的新的序列。
而primes()也是一个无限序列,所以调用时,需要设置一个退出循环的条件:
for n in primes():
if n < 1000:
print(n)
else:
break
这里很重要:注意到Iterator时惰性计算的序列,所以我们可以用Python表示“全体自然数”, “全体素数”这样的序列,而代码非常简洁。
可以把这个数据流看做是一个有序序列,但我们却不能提前知道序列的长度,只能不断通过next()函数实现按需计算下一个数据,所以Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算。
Iterator甚至可以表示一个无限大的数据流,例如全体自然数。而使用list是永远不可能存储全体自然数的。
上边代码总结:它这个直接时创建从3开始的奇数序列,因为偶数除了2以外都不是素数嘛,就从奇数里面筛选就好了,之后就是序列长度问题,额,比如说这段代码
def primes():
yield 2
it = _odd_iter() # 初始序列
while True:
n = next(it) # 返回序列的第一个数
yield n
it = filter(_not_divisible(n), it) # 构造新序列
比如说3,返回3,之后采取过滤,将3的倍数全部过滤掉,那是直接过滤到无穷无尽了吗。。。
是不是初始序列就是一个无穷无尽的序列呢。应该不是,还是因为下面这句话,他是惰性的,计算的时候才出来,那应该就是计算1000内的
可以把这个数据流看做是一个有序序列,但我们却不能提前知道序列的长度,只能不断通过next()函数实现按需计算下一个数据,所以Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算。
Iterator甚至可以表示一个无限大的数据流,例如全体自然数。而使用list是永远不可能存储全体自然数的。
练习
回数是指从左向右读和从右向左读都是一样的数,例如12321,909。请利用filter()筛选出回数:
思考:额,这个题的话,再leetcode上刷到过(只是刷的简单题,感觉刷的题在其他地方用到挺多的,要多刷题了,不仅为找工作,用处也是很多的)。
方法
- 那么就是余10然后得到末尾的一位数,第二次的时候末尾这个数乘10,再加上余10后的结果。
- 或者直接转为字符串,切片,反转,比较,最省事。但是刷题有要求不用这种方法,所以两种方法都写。
那么第一种方法:
- 考虑特殊情况,个位数肯定是回数,然后就是个位为0的非个位数一定不是回数。
- 一般情况,就是上面的算法了。
上代码
def is_palindrome(n):
if n % 10 == n:
return True
if n % 10 == 0:
return False
temp = 0
while n > temp:
temp *= 10
temp += n % 10
n //= 10 # 注意这里用到了地板除,这边只要整数部分,不需要小数部分
if n == temp:
return True # 针对位数为偶数的情况
if temp // 10 == n:
return True # 此处用到地板除注意 针对个数为奇数的情况
return False
第二种方法:
最符合Python特性了
先将int类型的数字转为str,再切片加反转即可
def is_palindrome(n):
return str(n)[:] == str(n)[::-1]
短短的代码,细节拉满,
- 第一就是int类型的数字是不能够切片的,需要转为str
- 第二就是切片的方式-1 表示从后往前取,就逆转了,其实用recovered也行,但写切片代码更少。
小结
filter()的作用是从一个序列中筛出符合条件的元素。由于filter()使用了惰性计算,所以只有在取filter()结果的时候,才会真正筛选并每次返回下一个筛出的元素。
所以前面那个就不是生成无穷个序列啦