假设出现异常收到一个10万条类脏数据,类似底下:
information = [158804023652,'evan','互联网行业','阿里巴巴',15625445635,15884236525.............]
现在我们需要把电话号码提取出来,并且写入到数据库内(其它客户的其它信息可以通过日志和表的关系提取出来。。。此处略 过.....)。
这里需要用到一个函数filter()
filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象,如果要转换为列表,可以使用 list() 来转换。
该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。
语法
以下是 filter() 方法的语法:
filter(function, iterable)
参数
- function -- 判断函数。
- iterable -- 可迭代对象。
返回值
返回一个迭代器对象
代码如下:
information = [158804023652,'evan','互联网行业','阿里巴巴',156254456305,158842036525]
def phone(x):
return len(str(x)) == 12
print(list(filter(phone,information)))
运行结果如下:
解释:
中国的手机号码是12位的,所以这边的phone()函数写的是:如果返回的len(str(x)是12位数,那么返回值为True,否者为False.
filter()函数会过滤掉非True的值。
注意:
调用filter时并没有触发过滤过程,因为调用filter函数只是返回了一个iterator迭代器,它是惰性计算,只有next或者list的时候,才真正开始计算过程。
补充:
实际工作中你需要把python连接到库,并把过滤后的数据写入,下面连接的内容有介绍:
数据库 用Python把数据写入到MySQL数据库/如何使用Python将数据写入到阿里云的RDS-MYSQL