由于互联网的发展,网络上出现了各种招聘平台,以前大学生求职都是到别人公司去面试等等,现在由于计算机网络技术的发展进步,出现了各种招聘平台,现在网络招聘成了大学生求职和公司老板招聘发布的重要渠道之一。例如boss直聘,老板不仅可以在boss直聘平台上发布招聘信息,求职者用户也可以在Boss直聘平台上发出求职信息。这样双方都不会去花太多的时间去找工作,信息发布后让系统去匹配告知,但是一个一个招聘信息去看,还不如把所需要找的信息就采集下来,做好统计清理,然后查询自己所需要的求职工作,这样方便许多。
大家在爬取BOSS直聘的时一定要注意会出现的问题:
1、容易出现验证码
2、封禁IP地址
这些问题简单来说就是就是网站反爬了。如果出现IP被限制的情况,就需要更换代理IP,让更多的代理IP去采集。如果使用了代理IP去采集招聘信息数据,采集久了还是会出现验证码,就需要控制好访问频率了。boss直聘访问频率太快也会出现验证码。boss直聘最大的问题,就是需要登录才能采集,不登采集招聘信息数据,一会都会被限制,爬虫可以采用模拟真实浏览器的方式去访问,可以采用selenium模拟真实浏览器进行对boss直聘的的数据采集,这样不仅能解决登陆问题,而且数据采集也会更加稳定,也可以参考以下爬虫程序方案:
import os
import time
import zipfile
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
class GenCookies(object):
# 随机useragent
USER_AGENT = open('useragents.txt').readlines()
# 代理服务器(产品官网 www.16yun.cn)
PROXY_HOST = 't.16yun.cn' # proxy or host
PROXY_PORT = 31111 # port
PROXY_USER = 'USERNAME' # username
PROXY_PASS