IP2Location是一个很好的IP定位信息查询网站,该网站提供以下几种数据服务:
1.收费数据包:可以使用一年,根据内容详略情况收取不同的价格
2.LITE包:数据包内信息只能精确到IPv4的C段地址
3.Sample包:只包含0.0.0.0~99.255.255.255的地址空间,且其中信息较为陈旧
4.网页查询:未注册用户每天可以查询50次,注册后可查询200次,信息包含十九项
本人就是随便玩玩,没钱买数据包,而免费的包又不好用,因此想到写一个python的爬虫获取网页查询的结果
编写爬虫时主要遇到问题及解决方法:
1.网页采用POST形式传递参数
利用Firefox+burp抓取查询IP时的数据,发现查询时POST的数据主要有两项:
ipAddress=8.8.8.8
btnLookup=search
知道了POST数据,这样就可以利用python中的urllib传递参数了
2.解析HTML获取相应信息
首先使用正则表达式,总觉得不好用,然后利用BeautifulSoupÿ