爬取站大爷的免费ip代理

该博客展示了如何使用Python的requests和lxml库从指定网站抓取免费代理IP,并进行整理。通过设置User-Agent避免被检测,遍历多页获取IP和端口,最后将结果保存为HTTP和HTTPS代理。
摘要由CSDN通过智能技术生成

“”"
Created by linuxdba at 2021/8/2
mail: linuxdba@qq.com
“”"
import requests
from lxml import etree

base_url = ‘https://www.zdaye.com’
url = ‘https://www.zdaye.com/dayProxy.html’
header = {
‘User-Agent’: ‘Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36’}

proxies_list = []

res = requests.get(url, headers=header)
res.encoding = ‘utf-8’
dom = etree.HTML(res.text)
sub_urls = dom.xpath(’//h3[@class=“thread_title”]/a/@href’)

sub_pages = []
for sub_url in sub_urls:
# print(base_url + sub_url)
for i in range(1, 11):
sub_page = (base_url + sub_url).rstrip(’.html’) + ‘/’ + str(i) + ‘.html’
sub_pages.append(sub_page)

#不要刷太多页(否则会被检测到立马封ip),或者获取优化获取策略防屏蔽
sub_res = requests.get(sub_pages[0], headers=header)
sub_res.encoding = ‘utf-8’
sub_dom = etree.HTML(sub_res.text)
ips = sub_dom.xpath(’//tbody/tr/td[1]/text()’)
ports = sub_dom.xpath(’//tbody/tr/td[2]/text()’)

proxies_list = []

for ip, port in zip(ips, ports):
proxies = {}
http = ‘http://’ + ip + ‘:’ + port
https = ‘https://’ + ip + ‘:’ + port
proxies[‘http’] = http
proxies[‘https’] = https
proxies_list.append(proxies)

print(proxies_list)

效果如下:
在这里插入图片描述

我可以告诉你如何使用代理IP爬取豆瓣电影网,但请注意这可能涉及到一些法律和道德问题,因此请确保你有合法的许可和良好的意图。 首先,你需要获取一些代理IP地址,你可以从一些付费的代理商那里购买,也可以使用一些免费代理。 然后,你需要使用编程语言例如Python来编写爬虫程序。在程序中,你需要设置代理IP地址,使得每次请求都会使用不同的IP地址。 具体来说,你可以使用Python的requests库来发送HTTP请求,并在请求头中设置代理IP地址。以下是一个简单的示例代码: ```python import requests # 代理IP地址 proxies = { 'http': 'http://127.0.0.1:8080', 'https': 'https://127.0.0.1:8080', } # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } # 发送请求 response = requests.get('https://movie.douban.com/', headers=headers, proxies=proxies) # 输出响应内容 print(response.text) ``` 在这个示例代码中,我们使用了一个代理IP地址 `http://127.0.0.1:8080`,并将其设置为HTTP和HTTPS协议的代理。我们还设置了一个请求头,以伪装成一个浏览器发送请求。最后,我们使用requests库发送HTTP请求,并输出响应内容。 请注意,使用代理IP爬取可能会遇到一些问题,例如代理IP可能不稳定,可能会被网封禁等等。因此,你需要小心使用,并确保你的行为合法和道德。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值