久了没有动,感觉挺难受的,听过各大网站都加强了反爬措施,今天来试试BOSS
直接selenium搞起,这不还真遇到了问题
一经查看原来是增加了selenium检测啊
还难不倒我,配置浏览器设置参数即可解决
直接上代码
# -*- coding:utf-8 -*-
'''
BOSS招聘爬取
'''
from selenium import webdriver
import csv
import requests
from lxml import etree
class BossSpider:
def __init__(self):
self.options = webdriver.ChromeOptions()
# 绕过网站检测爬虫
self.options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 不加载图片
self.options.add_argument('blink-settings=imagesEnabled=false'