从0开始学习python14:爬虫查询ip地址

''' 
今天爬取IP138网页查询自己输入的IP地址:
1、有爬虫限制,因此必须修改User-Agent才可以爬取
2、一个User-Agent只能连续爬取几次便被和谐了,因此程序要自动更改User-Agent才能连续不间断地访问爬取
3、根据网页简单的特点,可以直接截取自己需要的信息行打印出来
4、由于是用于练习、检验代码是否可行,勉强说服自己暂时不用遵守Robots协议
5、为了网络的健康发展,要自觉遵守Robos协议
'''
import requests
url = 'http://www.ip138.com/ips138.asp'
try:
    p = {"ip":"160.109.122.62"}
    kv5 = {'User-Agent':'Mazilla/5.0'}		
    #多个User-Agent
    kv4 = {'User-Agent':'Mazilla/4.0'}
    kv3 = {'User-Agent':'Mazilla/3.0'}
    kv2 = {'User-Agent':'Mazilla/2.0'}
    kv = [kv2,kv3,kv4,kv5]
    for i in range(2):
        for k in kv:					
            #遍历User-Agent列表
            hed = k
            r = requests.get(url,params = p,headers = hed)	
             #写入IP,修改headers的User-Agent
            r.raise_for_status()			
            #检查是否连接正常,异常的话将被捕捉并执行except语句
            r.encoding = r.apparent_encoding
            print(r.text[7530:7573])			#查询后显示地址的位置
            print(r.request.headers)			#打印头部信息
            jishu += 1					#爬虫计数
            print("爬取次数:{}".format(jishu))
 except:
    print("Default")
    print("爬取次数:{}".format(jishu))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值