python爬虫之51job工作搜索

简介

  大多数情况下我们通过urllib2等模块可以对单纯的html进行爬取分析,但是当我们遇到的页面是js渲染的,我们需要去分析一个一个后台的请求,这就太蛋疼了。若我们使用像浏览器一样的工具来处理js渲染的页面,然后再通过BeautifulSoup来处理那就很容易了。
  本文我们使用PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎;它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG;具备 Chrome,Safari,Firefox 等主流界面式浏览器同样的访问效果。
   另外在python下我们需要使用模块Selenium来驱动pythomjs,当然安装相应的插件后,我们通过Selenium也可以驱动Chrome,Safari,Firefox,IE等主流浏览器。
   最终我们使用PhantomJS 用来渲染解析JS,Selenium 用来驱动以及与 Python 的对接,Python 进行后期的处理,通过python+Selenium+phantomsj就可以随意抓取了。

实例

需求:通过输入关键字,来获取51job上的工作信息,并打印输出工作职位、职位链接、公司名、薪资、地点及发布日期等信息。

原理:分析51job界面,访问过程中有很多链接会打开新的浏览器tab页和很多点击按钮产生不同的搜索信息,因此通过单纯爬取html会很费劲。而我们通过phantomjs来打开网页会很方便,生成html源代码后,再selenium+BeautifulSoup分析就省事多了。

环境部署:
python2.7+BeautifulSoup+Selenium+phantomjs

python2.7+BeautifulSoup的安装请参考博文python爬虫之模拟登陆csdn 中安装部分。

#安装phantomjs
#http://phantomjs.org/build.html
#centos6.5系统安装(在5.5等老版本下,由于glibc太老安装失败)
#安装依赖
yum -y install gcc gcc-c++ make flex bison gperf ruby openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel libpng-devel libjpeg-devel
#下载安装包并解压
[root@test1 spider]# /usr/local/phantomjs/bin/phantomjs -v
2.1.1

#正确输出版本号则表示安装成功

#安装Selenium
pip2.7 install Selenium

代码实现

#!/usr/bin/env python2.7
#-*- coding: utf-8 -*-
#comment: python+selenium+phantomjs 实现51job工作抓取

import sys
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from bs4 import BeautifulSoup

#访问51job并进入搜索页面
def open51job(url,keys):
    driver = webdriver.PhantomJS(executable_path='/usr/local/phantomjs/bin/phantomjs')
    driver.get(url)
    print u"进入...." + driver.title
    #进入页面,默认搜索框为textbox1
    elem = driver.find_element_by_class_name("textbox1")
    elem.clear()
    elem.send_keys(keys)
    elem.submit()
    #close browser tab
    driver.close()
    #switch to next tab
    for handle in driver.window_handles:
        driver.switch_to_window(handle)
    print u"进入...." + driver.title
    time.sleep(2)
    return driver

#搜索工作
def searchJob(driver):
    #获取当前页所有的工作信息
    data = driver.page_source
    content = BeautifulSoup(data, 'lxml')
    position = content.find_all("p", {"class":"t1"})
    company = content.find_all("span", {"class":"t2"})
    location = content.find_all("span", {"class":"t3"})
    salary = content.find_all("span", {"class":"t4"})
    publish = content.find_all("span", {"class":"t5"})
    i = 1
    for each in position:
        print "##################第" + str(i) + "个job###############"
        print u"职位名:" + each.a.get("title")
        print u"职位链接:" + each.a.get("href")
        print u"公司名:" + company[i].string
        print u"工作地点:" + location[i].string
        if salary[i].string == "":
            print u"薪资:" + salary[i].string
        print u"发布时间:" + publish[i].string
        print "\n"
        i = i + 1
    return driver 

#切换到下一页
def nextPage(driver):
    try:
        page_num = driver.find_element_by_link_text("下一页")
        page_num.click()
    except NoSuchElementException:
        print u"搜索完毕"
        flag = 0
        return flag

if __name__ == '__main__':  
    url = "http://www.51job.com/qingdao"
    keys = raw_input("请输入搜索关键词:").decode(sys.stdin.encoding)
print "请稍等片刻...."
    num = 1 
    driver = open51job(url,keys)
    while True:
        print u"#######################第" + str(num) + u"页工作信息如下########################\n"
        driver = searchJob(driver)
        flag = nextPage(driver)
        if flag == 0:
            break
        num = num + 1
    driver.close()

要点:
1.每次分页切换时,要定位到“下一页”这个链接,当找不到这个链接会报exception,说明当前分页位于最后一页,则跳出循环。
2.html源码中的tag有很多子tag,利用Selenium搜索有局限性,因此使用的BeatufifulSoup
3.每当浏览器tab用完后,需要通过driver.close()关闭tab
4.BeautifulSoup搜索具有class的tag时,使用find_all(“span”, {“class”:”t4”}),而不是find_all(“span”, class_=”t4”)
5.input标签输入关键字后,通过submit()触发搜索,而不是click()
6.进入51job/qingdao后,默认搜索框为textbox1

运行代码

#每页有50个工作信息,这个关键词搜到的有两页
[root@rd-mysql-test1 spider]# python2.7 pps.py
请输入搜索关键词:韩国语
请稍等片刻....
进入....【青岛招聘网_青岛人才网_青岛最新招聘信息】-前程无忧
进入....【青岛,韩国语招聘,求职】-前程无忧
#######################第1页工作信息如下########################

##################第1个job###############
职位名:韩国语相关
职位链接:http://jobs.51job.com/qingdao-lcq/71126401.html?s=0
公司名:青岛杰亚希教育咨询有限公司
工作地点:青岛-李沧区
发布时间:08-26


##################2个job###############
职位名:韩国语教师(黄岛开发区)
职位链接:http://jobs.51job.com/qingdao-hdq/70702127.html?s=0
公司名:青岛亚联教育咨询管理有限公司
工作地点:青岛-黄岛区
发布时间:08-26


##################第3个job###############
职位名:韩国语翻译
职位链接:http://jobs.51job.com/qingdao-snq/80744014.html?s=0
公司名:赢联科技集团有限公司
工作地点:青岛-市南区
发布时间:08-26

.............

#######################第2页工作信息如下########################

##################第1个job###############
职位名:全&***韩语老师(外企模式-待遇福利升职等制度完善)
职位链接:http://jobs.51job.com/qingdao/79670539.html?s=0
公司名:青岛锦才教育
工作地点:青岛
发布时间:08-16


##################2个job###############
职位名:客服专员/办公文员  (2600-2800元/月)
职位链接:http://jobs.51job.com/qingdao-cyq/77470938.html?s=0
公司名:青岛锦才教育
工作地点:青岛-城阳区
发布时间:08-16


##################第3个job###############
职位名:销售顾问(无责薪3000元+提成+年终奖+带薪年假+五险)
职位链接:http://jobs.51job.com/qingdao/73211692.html?s=0
公司名:青岛锦才教育
工作地点:青岛
发布时间:08-16


##################4个job###############
职位名:市场/营销主管
职位链接:http://jobs.51job.com/qingdao/74802887.html?s=0
公司名:青岛锦才教育
工作地点:青岛
发布时间:08-16

...........

搜索完毕
  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬取51job网站上的职位信息,你可以使用Python编写爬虫代码。以下是一个示例代码的概述: 1. 首先,你需要导入所需的库和模块。在示例代码中,我们使用了selenium库来模拟浏览器行为,以及其他一些常用的库,如requests和BeautifulSoup。 2. 接下来,你需要设置伪造的浏览器信息。这可以通过设置User-Agent标头来实现,以使请求看起来像是来自真实的浏览器。 3. 然后,你可以编写一个函数来获取职位详情页的链接。在示例代码中,我们使用了webdriver.Chrome()来启动谷歌浏览器,并使用implicitly_wait()方法智能等待页面加载。 4. 在函数内部,我们使用循环来遍历页面上的所有职位列表,并使用find_elements_by_xpath()方法查找包含职位链接的元素。 5. 使用get_attribute()方法获取链接的href属性,并将其添加到一个列表中。 6. 最后,关闭浏览器,并返回职位详情页链接的列表。 请注意,示例代码中的一些路径可能需要根据你的实际环境进行修改,比如chromedriver的文件位置。 本次案例是爬取51job网站的职位信息。示例代码中使用了selenium库来模拟浏览器行为,并定义了一个函数get_joburllist()来获取职位详情页的链接。 示例代码中的函数get_joburllist()使用了webdriver.Chrome()来启动谷歌浏览器,并使用find_elements_by_xpath()方法查找职位链接的元素。 如果在使用selenium启动浏览器时遇到了错误,可能是因为缺少了chromedriver或者chromedriver版本不匹配。请确保你已经正确安装了chromedriver,并且与你使用的谷歌浏览器版本相匹配。 请注意,以上只是一个示例代码的概述,具体实现还需要根据你的需求和实际情况进行调整。希望对你有帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值