使用代理IP爬取到网站的指定数据

最新推荐文章于 2024-06-13 19:35:22 发布

纯黑酱

最新推荐文章于 2024-06-13 19:35:22 发布

阅读量2k

点赞数 2

本文链接：https://blog.csdn.net/qq_38525781/article/details/81565304

版权

这个代码是根据上一个爬取代理IP代码写出来的，当我们已经从那个国内高匿代理IP网站中爬取到存活时间比较久的IP地址后（此IP地址已经存到了IP.txt中），我们就可以利用爬取到的IP来作为代理IP，进一步爬取这个网站上我们所需要的IP。

代码如下：

from bs4 import BeautifulSoup
import re
import time
import requests
import random
from fake_useragent import UserAgent

def get_ip_list():
	f = open('IP.txt','r')
	ip_list = f.readlines()
	# print(ip_list)
	f.close()
	return ip_list

def get_random_ip(ip_list):
	proxy_ip = random.choice(ip_list)
	proxy_ip = proxy_ip.strip('\n')
	proxies = {'https': proxy_ip}
	return proxies

def get_content(url, ip_list):
	print("get_content函数执行!")
	try:
		try:
			time.sleep(1)
			proxies = get_random_ip(ip_list)
			headers = {'User-Agent':str(UserAgent().random)}
			print(proxies)

			req = requests.get(url=url, proxies=proxies,headers=headers,timeout=20)#, proxies=proxies,headers=headers,timeout=20
			print("requests请求成功")
		except:
			print("重新运行")
			time.sleep(10)
			proxies = get_random_ip(ip_list)
			headers = {'User-Agent':str(UserAgent().random)}
			req = requests.get(url=url, proxies=proxies,headers=headers,timeout=40)
	except:
		print("第二次重新运行")
		time.sleep(15)
		proxies = get_random_ip(ip_list)
		headers = {'User-Agent':str(UserAgent().random)}
		req = requests.get(url=url, proxies=proxies,headers=headers)
	req.encoding = 'utf-8'
	soup = BeautifulSoup(req.text, 'lxml')


	ips = soup.find_all('tr')
	ip_final_list = []
	for i in range(1, len(ips)):
		ip_info = ips[i]
		tds = ip_info.find_all('td')
		if not tds[7].find('div',class_='bar_inner fast') == None:
			#out = re.findall('<td>(.*?)</td>', str(tds[8]))
			if tds[8].text.find('天') != -1:
				tb = tds[8].text
				tb = tb[:-1]
				if int(tb) > 10:
					ip_final_list.append(tds[1].text + ':' + tds[2].text)
				#print(out)
	return ip_final_list			
if __name__ == '__main__':
	
	for i in range(1,2):
		url = 'http://www.xicidaili.com/wt/{}'.format(i)
		ip_list = get_ip_list()
		
		for ip in get_content(url, ip_list):
			
			f2 = open('NewFile.txt','a+')

			f2.write('http://'+ip)
			f2.write('\n')
			f2.close()

其实大部分代码与上一篇文章写的爬取代理IP差不多，不同点在于，此代码我使用了代理IP来爬取以及我爬取到的IP要为存活时间大于10天并且连接时间的那一条要为绿色。这么说大家可能不懂，附上链接，点击进去看网站就明白我在说什么了。

http://www.xicidaili.com/wt/

在此放一个截图，满足的IP地址类似于：

不说同时满足两个条件，那么该如何获取到连接时间的那一条要是绿色的呢？这就要观察其元素了。我观察到，凡是为绿色的，class都为“bar_inner fast”，再次放一张截图，可以能够解释清楚。

而为橙色以及黄色class分别为“bar_inner medium”以及“bar_inner slow”，这样一来我们就可以根据class的取值来判断是不是我们所需要的那个IP地址。

以此类推，如何再满足存活时间大于10天，可以通过我的代码自行思考。至于，怎么再将满足两种情况的IP保存，也很简单，看代码也就明白了，我也不多加赘述。

纯黑酱

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
使用代理IP爬取到网站的指定数据

这个代码是根据上一个爬取代理IP代码写出来的，当我们已经从那个国内高匿代理IP网站中爬取到存活时间比较久的IP地址后（此IP地址已经存到了IP.txt中），我们就可以利用爬取到的IP来作为代理IP，进一步爬取这个网站上我们所需要的IP。代码如下：from bs4 import BeautifulSoupimport reimport timeimport requestsi...
复制链接

扫一扫