本方法使用cookie的方法下载智联招聘的职位。主要就是要先登录智联招聘,然后将对应的cookie作为爬虫访问的header。代码如下:
import requests
import re
import xlwt
def parse_one_page(html):
'''
解析HTML代码,提取有用信息并返回
'''
# 正则表达式进行解析
pattern = re.compile('<span title=.*? class="iteminfo__line1__jobname__name">(.*?)</span>.*?'
'<span title=.*? class="iteminfo__line1__compname__name">(.*?)</span>.*?'
'<p class="iteminfo__line2__jobdesc__salary">\\n\s+(.*?)\\n.*?'
'<li class="iteminfo__line2__jobdesc__demand__item">(.*?)</li>', re.S) # 匹配职位信息