Python爬虫：免费无限获取可用的代理IP

最新推荐文章于 2024-02-23 08:59:51 发布

置顶

shaoyouhao

最新推荐文章于 2024-02-23 08:59:51 发布

阅读量1.2k

点赞数 3

分类专栏：笔记文章标签：爬虫 python mysql pycharm 后端

本文链接：https://blog.csdn.net/weixin_43456343/article/details/104863118

版权

本文介绍如何使用Python爬虫抓取西刺代理网站上的IP，存储到MySQL数据库。首先抓取所有IP到表1，然后筛选出可用IP存入表2，剔除不可用IP。通过这种方法，可以得到大量可用的代理IP地址。

摘要由CSDN通过智能技术生成

任务思路描述：

先抓取大量的ip（包括不可用和可用的）保存到表1中，再从表1中的所有ip进行筛选，对于可用的ip信息保存到表2中，不可用的ip地址从表1中删除。

抓取西刺代理的任意页网站。并将抓取的结果保存到mysql数据库表1中。

import requests
import parsel
import pymysql

conn = pymysql.connect(host="127.0.0.1", user="root", password="123456", db="ips",charset="utf8")
cursor = conn.cursor()
#获取https://www.xicidaili.com/网站内任意数量的ip地址
def crawl_ips(url):
    header = {
   
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
    }
    response = requests.get(url=url, headers=header)
    html = parsel.Selector(response.text)
    #通过xpath筛选出ip地址，端口，地址，http类型，时间
    trs = html.xpath("//table[@id='ip_list']//tr")[1:]
    for tr in trs:
        ip = tr.xpath("./td[2]/text()").get()
        port = tr.xpath("./td[3]/text()").get()
        address = tr.xpath(&

最低0.47元/天解锁文章

shaoyouhao

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：免费无限获取可用的代理IP

任务思路描述：先抓取大量的ip（包括不可用和可用的）保存到表1中，再从表1中的所有ip进行筛选，对于可用的ip信息保存到表2中，不可用的ip地址从表1中删除。抓取西刺代理的任意页网站。并将抓取的结果保存到mysql数据库表1中。import requestsimport parselimport pymysqlconn = pymysql.connect(host="127.0...
复制链接

扫一扫

专栏目录