今天实战,从8000多个全国手机号码中筛选出北京地区的手机号码。
我们会学习python读取excel和csv文件,对两个文件数据对比。两个数据文件均为随机生成,文末为下载地址。
两个数据文件其中numbers_virtual.csv是手机号码表,segment_virtual.xlsx是号段表,用于标示北京地区。 手机号码编码规则是前3位用于标识运营商,如133表示电信,136表示移动,186表示联通;手机号中4-7位标识地区。
先打开两个文件观察一下:
Windows开始菜单–命令行中‘cmd’–‘jupyter notebook’–’File‘-’New Notebook’,这就完成了新建。因为我把这两个数据文件放在D盘python文件夹下,所以需要先修改一下工作路径:
cd d:\python
两个文件先读哪个?先理一下思路,对手机号码切片,再在号段表里匹配看有没有,所以我们先得有号段表——先读号段表。python有专门的库xlrd读excel文件,就像csv文件一样。
import xlrd
data = xlrd.open_workbook('segment_virtual.xlsx')
table = data.sheets()[0]
cols = table.col_values(0)
xlrd.open_workbook(‘segment_virtual.xlsx’)打开excel表格; data.sheets()[0]读取其中的s