从0开始学习python14：爬虫查询ip地址

最新推荐文章于 2024-05-17 17:51:40 发布

java.py

最新推荐文章于 2024-05-17 17:51:40 发布

阅读量490

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/qq_34546589/article/details/100389496

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

''' 
今天爬取IP138网页查询自己输入的IP地址：
1、有爬虫限制，因此必须修改User-Agent才可以爬取
2、一个User-Agent只能连续爬取几次便被和谐了，因此程序要自动更改User-Agent才能连续不间断地访问爬取
3、根据网页简单的特点，可以直接截取自己需要的信息行打印出来
4、由于是用于练习、检验代码是否可行，勉强说服自己暂时不用遵守Robots协议
5、为了网络的健康发展，要自觉遵守Robos协议
'''
import requests
url = 'http://www.ip138.com/ips138.asp'
try:
    p = {"ip":"160.109.122.62"}
    kv5 = {'User-Agent':'Mazilla/5.0'}		
    #多个User-Agent
    kv4 = {'User-Agent':'Mazilla/4.0'}
    kv3 = {'User-Agent':'Mazilla/3.0'}
    kv2 = {'User-Agent':'Mazilla/2.0'}
    kv = [kv2,kv3,kv4,kv5]
    for i in range(2):
        for k in kv:					
            #遍历User-Agent列表
            hed = k
            r = requests.get(url,params = p,headers = hed)	
             #写入IP，修改headers的User-Agent
            r.raise_for_status()			
            #检查是否连接正常，异常的话将被捕捉并执行except语句
            r.encoding = r.apparent_encoding
            print(r.text[7530:7573])			#查询后显示地址的位置
            print(r.request.headers)			#打印头部信息
            jishu += 1					#爬虫计数
            print("爬取次数：{}".format(jishu))
 except:
    print("Default")
    print("爬取次数：{}".format(jishu))

java.py

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从0开始学习python14：爬虫查询ip地址

'''今天爬取IP138网页查询自己输入的IP地址： 1、有爬虫限制，因此必须修改User-Agent才可以爬取 2、一个User-Agent只能连续爬取几次便被和谐了，因此程序要自动更改User-Agent才能连续不间断地访问爬取 3、根据网页简单的特点，可以直接截取自己需要的信息行打印出来 4、由于是用于练习、检验代码是否可行，勉强说服自己不用遵守Robots协议 import ...
复制链接

扫一扫

专栏目录