怎样使用python爬虫获得免费代理IP

最新推荐文章于 2024-04-05 09:01:15 发布

克金森沐沐

最新推荐文章于 2024-04-05 09:01:15 发布

阅读量1.6k

点赞数 1

分类专栏： python 基础入门爬虫文章标签： python 爬虫后端

本文链接：https://blog.csdn.net/program_G/article/details/117389524

版权

怎样使用python爬虫获得免费代理IP

进行爬取和测试有效性
总结

爬虫一直是python使用的一个重要部分，而许多网站也为此做了许多反爬措施，其中爬虫访问过于频繁直接封ip地址也作为一种“伤敌一千，自损八百”的方法被许多网站采用，代理ip便可以防止这种情况出现。

进行爬取和测试有效性

分析完毕开始爬取ip，直接使用第三方的requests和BeautifulSoup4，可以让抓取变得很方便，代码如下：

from iptools import header, dict2proxy
from bs4 import BeautifulSoup as Soup

def parse_items(items):
    # 存放ip信息字典的列表
    ips = []
    for item in items:
        tds = item.find_all('td')
        # 从对应位置获取ip，端口，类型
        ip, port, _type = tds[1].text, int(tds[2].text), tds[5].text
        ips.append({
   'ip': ip, 'port': port, 'type': _type})
    return ips

def check_ip(ip):
    try:
        proxy = dict2proxy(ip)
        url = 'https://www.ipip.net/'
        r = requests.get(url, headers=head, proxies=pro,timeout=5)
        r.raise_for_status()
    except:
        return False
    else:
        return True

def get_proxies(index):
    url = 'http://zhimaruanjian.com// % index
    r = requests.get(url, headers=header)
    r.encoding = r.apparent_encoding
    r.raise_for_status()
    soup = Soup(r.text, 'lxml')

最低0.47元/天解锁文章

克金森沐沐

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
怎样使用python爬虫获得免费代理IP

怎样使用python爬虫获得免费代理IP进行爬取和测试有效性总结爬虫一直是python使用的一个重要部分，而许多网站也为此做了许多反爬措施，其中爬虫访问过于频繁直接封ip地址也作为一种“伤敌一千，自损八百”的方法被许多网站采用，代理ip便可以防止这种情况出现。进行爬取和测试有效性分析完毕开始爬取ip，直接使用第三方的requests和BeautifulSoup4，可以让抓取变得很方便，代码如下：from iptools import header, dict2proxyfrom bs4 impor
复制链接

扫一扫