python 爬虫学习:抓取智联招聘网站职位信息(一)

近期智联招聘的网站风格变化较快,这对于想爬取数据的人来说有些难受。因此,在前人基础上,我整理了针对智联招聘网站的最新结构进行数据抓取的代码,目前支持抓取职位搜索列表页面的列表项,并将职位列表以exlce表格保存在本地,职位明细页面的职位介绍等内容。下一步将对抓取的数据逐步进行分析处理。
本文用到开发工具为PyCharm,python使用的版本是3.7。引用的模块包含:

import requests
import time
import re
import requests
from bs4 import BeautifulSoup
from src.zhilian_config import *
import xlwt
import xlrd
import os
import matplotlib.pyplot as plt

其中src.zhilian_config为本地配置文件,其他模块均可用pip模块进行安装,或者使用PyCharm工具中的Project Interpreter 进行安装。
下面是程序结构:
爬虫程序文件结构
注意新建的工程里,需在src目录下建一个result目录,用来存放抓取的数据文件。如下图结果:
抓取结果
程序逻辑步骤如下:

1.首先根据配置文件设置的搜索关键词及城市清单,搜索页码数,进行爬取数据,将抓取到的列表数据逐行写入到txt文件(FILEPATH+FILENAME + ‘.TXT’);
2.同时进入每个职位明细页面提取出职位要求部分的页面内容,经数据清洗后将职位要求部分写入txt文件(FILEPATH+FILENAME + ‘-requirements.TXT’),用于后续进行词频分析;
3.然后读取第一个txt文件,逐行转存到同名的xls文件中;
4.再统计xls文件中的salary列(工资)计算平均工资后统计出工资直方图并保存到result目录下salary_avarage.png

平均工资直方图:
直方图

好了,下面直接上程序吧,本次设计了两个python文件,一个配置文件(zhilian_config.py,用于设置查询关键字及城市,查询总页数等配置信息),一个主程序(zhilian.py)。下面看看配置文件:
zhilian_config.py:

# Code based on Python 3.x
# _*_ coding: utf-8 _*_
# __Author: "jordan"

TOTAL_PAGE_NUMBER = 10  # PAGE_NUMBER: total number of pages,可进行修改

KEYWORDS = ['银行', '客户经理']   # 需爬取的关键字可以自己添加或修改

# 爬取主要城市的记录
CITY_SELECT = ['765', '763']        # 选取下面字典表中的某个城市的字典码
CITY_DICT = {'489': '全国',
        '530': '北京',
        '538': '上海',
        '765': '深圳',
        '763': '广州'}

# MONGO_URI = 'localhost'
# MONGO_DB = 'zhilian'
FILEPATH = 'result'
FILENAME = '+'.join(CITY_DICT[i] for i in CITY_SELECT) + '地区' + '+'.join(str(i) for i in KEYWORD
  • 3
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值