Python爬虫抓取代理IP并检验可用性

最新推荐文章于 2024-08-09 12:01:28 发布

玲珑算局

最新推荐文章于 2024-08-09 12:01:28 发布

阅读量1.1w

点赞数 4

分类专栏： python爬虫脚本文章标签： python IP代理爬虫

本文链接：https://blog.csdn.net/lukaishilong/article/details/51900460

版权

经常写爬虫，难免会遇到ip被目标网站屏蔽的情况，银次一个ip肯定不够用，作为节约的程序猿，能不花钱就不花钱，那就自己去找吧，这次就写了下抓取西刺代理上的ip，但是这个网站也反爬！！！至于如何应对，我觉得可以通过增加延时试试，可能是我抓取的太频繁了，所以被封IP了。但是，还是可以去IP巴士试试的，条条大路通罗马嘛，不能吊死在一棵树上。不废话，上代码。

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
import time
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
  'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  #'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
  'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
  'Accept-Encoding':'