当爬虫遇到频繁登录
下方是对静态网页爬取的python代码(符合爬虫协议规定),注释阐释了我的思路以及碰到的一些问题
import requests
from lxml import etree
import time
import random
url = 'http://www.job5156.com/qiye/hebei-0/'
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'
}
# 设置代理池 为防止网页出现 频繁登录 而不能获取部分源码的情况
procxy = [
{
'https':'36.6.147.197:28546'},
{
'https':'223.241.117.118:18118'},
{
'https':'114.239.172.141:38001'},
{
<