python 爬虫代理ip池（适合初学者）

最新推荐文章于 2024-06-17 13:24:29 发布

Bouquet666

最新推荐文章于 2024-06-17 13:24:29 发布

阅读量2.3k

点赞数 3

分类专栏： python 爬虫文章标签： python 爬虫代理ip池

本文链接：https://blog.csdn.net/m0_37809070/article/details/97661693

版权

初次学习python爬虫的朋友在频繁访问被爬取页面网站时都会被拦截，也就是限制ip。这里教教大家建立代理ip池。#!/usr/bin/env python3# -*- coding: utf-8 -*-import requests,threading,datetimefrom bs4 import BeautifulSoupimport random"""1、抓取西刺代理网站...

摘要由CSDN通过智能技术生成

初次学习python爬虫的朋友在频繁访问被爬取页面网站时都会被拦截，也就是限制ip。这里教教大家建立代理ip池。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import requests,threading,datetime
from bs4 import BeautifulSoup
import random

"""
1、抓取西刺代理网站的代理ip
2、并根据指定的目标url,对抓取到ip的有效性进行验证
3、最后存到指定的path
"""

# ------------------------------------------------------文档处理--------------------------
# 写入文档
def write(path,text):
    with open(path,'a', encoding='utf-8') as f:
        f.writelines(text)
        f.write('\n')
# 清空文档
def truncatefile(path):
    with open(path, 'w', encoding='utf-8') as f:
        f.truncate()
# 读取文档
def read(path):
    with open(path, 'r', encoding='utf-8') as f:
        txt = []
        for s in f.readlines():
            txt.append(s.strip())
    return txt
# ---------------------------------------------------------------------------------------
# 计算时间差,格式: 时分秒
def gettimediff(start,end):
    seconds = (end - start).seconds
    m, s = divmod(seconds, 60)
    h, m = divmod(m, 60)
    diff = ("%02d:%02d:%02d" % (h, m, s))
    return diff
# ----------------------------------------------------------------------------------------------------------------------
# 返回一个随机的请求头 head

最低0.47元/天解锁文章

Bouquet666

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
python 爬虫代理ip池（适合初学者）

初次学习python爬虫的朋友在频繁访问被爬取页面网站时都会被拦截，也就是限制ip。这里教教大家建立代理ip池。#!/usr/bin/env python3# -*- coding: utf-8 -*-import requests,threading,datetimefrom bs4 import BeautifulSoupimport random"""1、抓取西刺代理网站...
复制链接

扫一扫