试用免费代理爬取

最新推荐文章于 2023-06-07 14:57:22 发布

njmanong

最新推荐文章于 2023-06-07 14:57:22 发布

阅读量487

点赞数

文章标签： p2p 网络协议网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/njmanong/article/details/123380298

版权

一般入门爬虫码农采用免费，但要确保工作效率还是去找合适的付费品牌。免费找的时间和测用的时间就要花掉很多，就算自己写个爬虫爬取代理IP放进自己的“池子”而后再来测用到最后爬取成功，这也只能适合少量个人用。

爬虫用户自己是没有能力维护一系列的代理服务器和代理IP的，这个成本实在有点高了。所以公用代理服务器应运而生,现在几大云服务商家都提供代理IP服务，一般论个买...

同时网上也有很多代理IP共享网站，会把一些免费的代理IP放出来给大家用。大家都是做爬虫的，那么，是不是可以先把代理IP网站的数据爬一遍？

所以可以看到不少的爬代理IP的爬虫，如突破反爬虫的利器——开源IP代理池之类的项目。这些项目都能达到抓取代理IP数据的目的，很多时候也够用了。

然而在使用过程中我们发现了一些问题：

网站公布的代理IP不一定是可用的。可能代理服务器挂了，可能IP无效了...等等之类的。
代理IP是部分可用的。某代理IP可用代理访问百度，但是代理访问谷歌的时候就GG了。

#encoding=utf8
import urllib2
import BeautifulSoup

User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent

url = 'http://www.*****.com'
req = urllib2.Request(url,headers=header)
res = urllib2.urlopen(req).read()

soup = BeautifulSoup.BeautifulSoup(res)
ips = soup.findAll('tr')
f = open("../src/proxy","w")

for x in range(1,len(ips)):
ip = ips[x]
tds = ip.findAll("td")
ip_temp = tds[2].contents[0]+"\t"+tds[3].contents[0]+"\n"
# print tds[2].contents[0]+"\t"+tds[3].contents[0]
f.write(ip_temp)

并不是所有的代理都能用，原因有很多，可能是我们所处的网络连不到这个代理，也有可能是这个代理，连不到我们的目标网址，所以，我们要验证一下，成功的不是很多，

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
试用免费代理爬取

一般入门爬虫码农采用免费，但要确保工作效率还是去找合适的付费品牌。免费找的时间和测用的时间就要花掉很多，就算自己写个爬虫爬取代理IP放进自己的“池子”而后再来测用到最后爬取成功，这也只能适合少量个人用。爬虫用户自己是没有能力维护一系列的代理服务器和代理IP的，这个成本实在有点高了。所以公用代理服务器应运而生,现在几大云服务商家都提供代理IP服务，一般论个买...同时网上也有很多代理IP共享网站，会把一些免费的代理IP放出来给大家用。大家都是做爬虫的，那么，是不是可以先把代理IP网站的数据爬一遍？
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。