进行网站分析
进入https://www.51job.com/这个网站
我在这就以python为例搜索职位跳转到这个页面
按F12进行查看每个职位的信息在哪个包中
我们点进这个包中搜索
发现这组数据在Script标签中,类似于json数据,同时发现其链接的URL的键值为job_href我们可以写一个正则表达式来获取这些url方便后续获取信息,同时我们也发现这些url其实是被简单修改过的,我们需要用re.sub处理一下
real_url=[]
url = re.findall('"job_href":"(.*?)"',page_text,re.S)#职位详情URL
for each in url: #把url里的'\\/'改为'/',此时为真正的URL
real_url.append(re.sub(r'\\/','/',each))
获取职位信息
我们已经找到了每一个职位对应的URL,于是我们遍历这个URL列表,爬取每一个职位对应的信息。
我们需要把公司名称,招聘职位,岗位信息,地址和公司简介爬取到
对页面里的HTML源码进行xpath解析,可以获取到上文的信息,要使用try…except…对异常数据进行处理
存储信息
我们可以使用pandas模块对爬到的数据进行存储,同时我们发现换页的时候只是其中一个参数发生过改变,我们也可以写一个循环来爬取多页
最终代码
import requests
import lxml.etree
import os
import time
import re
import pandas as pd
xiangxi = [] #详细信息
mingcheng = [] #公司名称
zhiwei = []