python爬虫通过Selenium采集招聘信息

随着互联网发展,网络招聘成为求职主要途径,尤其在Boss直聘等平台上。但爬取此类信息时会遇到验证码、IP封禁等问题。为解决登录和稳定性问题,可以利用Selenium模拟真实浏览器进行数据采集,既能规避验证码,又能确保爬取的稳定性。
摘要由CSDN通过智能技术生成

由于互联网的发展,网络上出现了各种招聘平台,以前大学生求职都是到别人公司去面试等等,现在由于计算机网络技术的发展进步,出现了各种招聘平台,现在网络招聘成了大学生求职和公司老板招聘发布的重要渠道之一。例如boss直聘,老板不仅可以在boss直聘平台上发布招聘信息,求职者用户也可以在Boss直聘平台上发出求职信息。这样双方都不会去花太多的时间去找工作,信息发布后让系统去匹配告知,但是一个一个招聘信息去看,还不如把所需要找的信息就采集下来,做好统计清理,然后查询自己所需要的求职工作,这样方便许多。
大家在爬取BOSS直聘的时一定要注意会出现的问题:
1、容易出现验证码
2、封禁IP地址
这些问题简单来说就是就是网站反爬了。如果出现IP被限制的情况,就需要更换代理IP,让更多的代理IP去采集。如果使用了代理IP去采集招聘信息数据,采集久了还是会出现验证码,就需要控制好访问频率了。boss直聘访问频率太快也会出现验证码。boss直聘最大的问题,就是需要登录才能采集,不登采集招聘信息数据,一会都会被限制,爬虫可以采用模拟真实浏览器的方式去访问,可以采用selenium模拟真实浏览器进行对boss直聘的的数据采集,这样不仅能解决登陆问题,而且数据采集也会更加稳定,也可以参考以下爬虫程序方案:

    import os
    import time
    import zipfile

    from selenium import webdriver
    from selenium.common.exceptions import TimeoutException
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.support.ui import WebDriverWait


    class GenCookies(object):
        # 随机useragent
        USER_AGENT = open('useragents.txt').readlines()


        # 代理服务器(产品官网 www.16yun.cn)
        PROXY_HOST = 't.16yun.cn'  #  proxy or host
        PROXY_PORT = 31111  # port
        PROXY_USER = 'USERNAME'  # username
        PROXY_PASS 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值