在对网站进行漏扫时,经常因为网站的安全设备导致漏扫无法进行。安全设备可能检测到漏扫属于违规行为,所以会进行拦截,一般是会将IP封一段时间。
1.需求分析,明确目标
爬取目标网站:https://www.89ip.cn/
首先明确目标:这里需要爬取的就是IP+端口。发现每个代理IP的内容都在标签中,而需要爬取的具体IP和端口都在它的子标签中。
page1:https://www.89ip.cn/index_1.html
page2:https://www.89ip.cn/index_2.html …
page10:https://www.89ip.cn/index_10.html
从url上看,页面非常有规律。那就开始吧,爬取前10页代理IP(每页有15个,共150个),并测试是否可用。
2.首先简单爬取一个页面的IP和端口
#!/usr/bin/python3