python爬虫-- 爬取51job网招聘信息

项目概览
  • 在浏览器上访问51job 官方网站,并在搜索框输入关键词“Python”,地点选在“西安”,单击”搜索“按钮进入搜索页
  • 在搜索页中,所有符合条件的职位信息以列表的形式排序设有分页显示。每条职位信息是一个URL 地址,通过URL 地址可以进入该职位的详情页。
  • 职位详情页也是数据爬取的页面,爬取的数据信息有:职位名称、企业名称、待遇、福利以及职位要求等等。
项目框架
  • 项目的开发工具选择 Requests模块和 BeautifulSoup 模块实现了爬虫开发和数据清洗。
  • 数据存储选择 Sqlalchemy 框架
  • 数据库选择Mysql
具体步骤
一:获取城市编号
  • 在这里插入图片描述- 通过观察搜索页的URL地址,我们就可以发现对应的搜索内容一样的时候,不同的城市对应的编号不一样。
  • 如下图所示,我们可以从网页中找到area_array_s.js。从这个网页上有地区和编号之间的关系。
    在这里插入图片描述
  • 下面的代码是获取城市编号
def get_city_code():
    url = 'https://js.51jobcdn.com/in/js/h5/dd/d_jobarea.js?20191212'
    r = requests.get(url)
    begin = r.text.find('var hotcity')
    if begin == -1:
        print('Not find var hotcity')
    # print(begin)
    end = r.text.find(';',begin)
    if end == -1:
        print('Not find ; ')
    # print(end)
    result_text = r.text[begin : end-1]
    #print(result_text)
    begin = result_text.find('{')
    city_dict_str = result_text[begin:]
    # print(city_dict_str)
    key,value = "",""
    key_list,value_list = [],[]
    count = 1
    i = 0
    while i < len(city_dict_str):
        if city_dict_str[i] == '"' and count == 1:
            count = 2
            i += 1
            while city_dict_str[i] != '"':
                key += city_dict_str[i]
                i += 1
            key_list.append(key)
            key = ""
            i += 1
        if city_dict_str[i] == '"' and count == 2:
            count = 1
            i += 1
            while city_dict_str[i] != '"':
                value += city_dict_str[i]
                i += 1
            value_list.append(value)
            value = ""
            i += 1
        i += 1
    city_dict = {}
    i = 0
    while i < len(key_list):
        city_dict[value_list[i]] = key_list[i]
        i += 1
    # print(city_dict)
    return city_dict
获取招聘职位总页数
  • 当我们搜索Python+西安的时候,会看到以下网页。在这里插入图片描述
  • 获取城市编号之后,就可以动态的构建搜索页的URL地址,实现不同地点的不同关键词的职位搜索。在爬取职位信息之前,还需要确定当前职位的总页数,因为同一职位可能会有成千上万条招聘信息,而这些招聘信息都会进行分页处理。
  • 那我们总页数的获取方式可以为通过总职位数除以每一页的职位数。通过观察便可以知道每页的职位数上限是50。总职位数可以从”Doc“选项卡里找到相应的位置。
  • 代码如下:
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36',
    'Host' : 'search.51job.com',
    'Upgrade-Insecure-Requests' : '1'
}

# 获取职位总页数
def get_pageNumber(city_code,keyword):
    url = 'https://search.51job.com/list/' + str(city_code) + \
          ',000000,0000,00,9,99,' + str(keyword) + ',2,1.html'
    r = requests.get(url=url,headers=headers)
    soup = BeautifulSoup(r.content.decode('gbk'),'html5lib')
    find_page = soup.find('div',class_='rt').getText()
    temp = re.findall(r"\d+\.?\d*",find_page)
    if temp:
        pageNumber = math.ceil(int(temp[0])/50)
        return pageNumber
    else:
        return 0
爬取每个职位信息
  • 这是两个循环。遍历总页数和遍历每页的职位信息。
  • 遍历总页数:每次遍历需要重新构建搜索页的URL地址,使当前遍历的次数对于搜索页的页数。构建后的URL地址发送HTTP请求并从响应内容提取当前页面的所有职位信息。
  • 遍历每页的职位信息:对当前搜索页的所有职位的URL 地址进行遍历访问,通过发哦送HTTP请求进入每个职位的详情页,在职位详情页里爬取目标数据。
  • 代码比较多,我就不贴了,大家可以去我的githup查看"get_info"函数。
数据存储
  • 数据库选用Mysql 数据库。
  • 主要是一些创建表、更新表的数据或者新增表的数据等等,比较简单,就不贴代码了。
总结
  • 以上只是我简单的分享了一下项目的思路。
  • 代码githup:https://github.com/zhangyi-13572252156/spider-51job
  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
好的,我可以给你提供一个简单的Python爬虫示例,用于爬取51job站上的招聘信息。首先,我们需要安装一些必要的库,比如`requests`和`beautifulsoup4`。你可以使用以下命令来安装它们: ``` pip install requests pip install beautifulsoup4 ``` 然后,我们可以编写以下Python代码来实现爬虫: ```python import requests from bs4 import BeautifulSoup # 设置爬取的URL和请求头 url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,Python,2,1.html' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'} # 发送HTTP请求并获取响应 response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 解析HTML并提取招聘信息 job_list = soup.select('#resultList .el') # 输出招聘信息 for job in job_list: job_name = job.select('.t1')[0].text.strip() company_name = job.select('.t2')[0].text.strip() salary = job.select('.t3')[0].text.strip() location = job.select('.t4')[0].text.strip() release_date = job.select('.t5')[0].text.strip() print('职位名称:', job_name) print('公司名称:', company_name) print('薪资:', salary) print('工作地点:', location) print('发布日期:', release_date) print() ``` 在这个示例中,我们首先设置了要爬取的URL和请求头,然后发送HTTP请求并获取响应。接下来,我们使用`BeautifulSoup`库解析HTML并提取招聘信息。最后,我们输出招聘信息,其中使用`select()`方法选择HTML元素。你可以根据需要调整代码以满足你的需求。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值