'''
今天爬取IP138网页查询自己输入的IP地址:
1、有爬虫限制,因此必须修改User-Agent才可以爬取
2、一个User-Agent只能连续爬取几次便被和谐了,因此程序要自动更改User-Agent才能连续不间断地访问爬取
3、根据网页简单的特点,可以直接截取自己需要的信息行打印出来
4、由于是用于练习、检验代码是否可行,勉强说服自己暂时不用遵守Robots协议
5、为了网络的健康发展,要自觉遵守Robos协议
'''
import requests
url = 'http://www.ip138.com/ips138.asp'
try:
p = {"ip":"160.109.122.62"}
kv5 = {'User-Agent':'Mazilla/5.0'}
#多个User-Agent
kv4 = {'User-Agent':'Mazilla/4.0'}
kv3 = {'User-Agent':'Mazilla/3.0'}
kv2 = {'User-Agent':'Mazilla/2.0'}
kv = [kv2,kv3,kv4,kv5]
for i in range(2):
for k in kv:
#遍历User-Agent列表
hed = k
r = requests.get(url,params = p,headers = hed)
#写入IP,修改headers的User-Agent
r.raise_for_status()
#检查是否连接正常,异常的话将被捕捉并执行except语句
r.encoding = r.apparent_encoding
print(r.text[7530:7573]) #查询后显示地址的位置
print(r.request.headers) #打印头部信息
jishu += 1 #爬虫计数
print("爬取次数:{}".format(jishu))
except:
print("Default")
print("爬取次数:{}".format(jishu))
从0开始学习python14:爬虫查询ip地址
最新推荐文章于 2024-05-17 17:51:40 发布