一、背景
工作中偶尔会遇到这样的情况,给你一堆客户身份证号码,然后要你把对应的性别、生日、户籍地等信息弄出来。
最常用的方法就是用excel表套公式,这个方式如果用来取性别、生日这些信息的话问题不大,毕竟这些规则还好梳理,但是如果想要弄户籍地(如:广东省 广州市 荔湾区),操作难度极大。首先,你要弄到相应的行政区划代码,如广东省广州市天河区是440106,要注意,这些区划代码因为行政区划的调整,是有很多变化的,而且还是时时调整的,反正让我去收集这么一个表出来,我是做不到了。
由于以上原因,我只能另想其他办法了。
后来发现有这么一个网站:http://qq.ip138.com/idsearch/index.asp?userid=&action=idcard 。你在这个网站上输入身份证号码,它就会给你把性别、生日、户籍地给你弄出来。
看到这个网站就想,如果能让代码把身份证号码一个一个到网站上遍历一遍,然后把这些信息扒下来不就行了??
说干就干!
二、代码部分
这里用到的是python,整体的思路:
1、把要处理的身份证读入
2、设置循环,一个一个获取身份证号码对应的信息
3、分析页面的html,把目标信息取出
4、把获取的信息打包,输出成一个excel文件
第一步,读入身份证号码很简单,用pandas的read_csv读入即可,这