Python爬虫抓取智联招聘(基础版)_智联招聘 爬虫

接下来我们要分析有用数据,从搜索结果中我们需要的数据有:职位名称、公司名称、公司详情页地址、职位月薪:

通过网页元素定位找到这几项在HTML文件中的位置,如下图所示:

用正则表达式对这四项内容进行提取:

# 正则表达式进行解析  
pattern = re.compile('<a style=.\*? target="\_blank">(.*?)</a>.*?'        # 匹配职位信息  
   '<td class="gsmc"><a href="(.\*?)" target="\_blank">(.*?)</a>.*?'     # 匹配公司网址和公司名称  
   '<td class="zwyx">(.*?)</td>', re.S)                                # 匹配月薪        
  
# 匹配所有符合条件的内容  
items = re.findall(pattern, html)

注意:解析出来的部分职位名称带有标签,如下图所示:

那么在解析之后要对该数据进行处理剔除标签,用如下代码实现:

for item in items:  
   job_name = item[0]  
   job_name = job_name.replace('<b>', '')  
   job_name = job_name.replace('</b>', '')  
   yield {  
       'job': job_name,  
       'website': item[1],  
       'company': item[2],  
       'salary': item[3]  
   }

2、写入文件

我们获取到的数据每个职位的信息项都相同,可以写到数据库中,但是本文选择了csv文件,以下为百度百科解释:

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。

由于python内置了csv文件操作的库函数,所以很方便:

import csv  
def write\_csv\_headers(path, headers):  
   '''  
   写入表头  
   '''  
   with open(path, 'a', encoding='gb18030', newline='') as f:  
       f_csv = csv.DictWriter(f, headers)  
       f_csv.writeheader()  
  
def write\_csv\_rows(path, headers, rows):  
   '''  
   写入行  
   '''  
   with open(path, 'a', encoding='gb18030', newline='') as f:  
       f_csv = csv.DictWriter(f, headers)  
       f_csv.writerows(rows)

3、进度显示

要想找到理想工作,一定要对更多的职位进行筛选,那么我们抓取的数据量一定很大,几十页、几百页甚至几千页,那么我们要掌握抓取进度心里才能更加踏实啊,所以要加入进度条显示功能。

本文选择tqdm 进行进度显示,来看一下酷炫结果(图片来源网络):

执行以下命令进行安装:pip install tqdm

简单示例:

from tqdm import tqdm  
from time import sleep  
  
for i in tqdm(range(1000)):  
   sleep(0.01)

4、完整代码

以上是所有功能的分析,如下为完整代码:

#-\*- coding: utf-8 -\*-  
import re  
import csv  
import requests  
from tqdm import tqdm  
from urllib.parse import urlencode  
from requests.exceptions import RequestException  
  
def get\_one\_page(city, keyword, region, page):  
   '''  
   获取网页html内容并返回  
   '''  
   paras = {  
       'jl': city,         # 搜索城市  
       'kw': keyword,      # 搜索关键词   
       'isadv': 0,         # 是否打开更详细搜索选项  
       'isfilter': 1,      # 是否对结果过滤  
       'p': page,          # 页数  
       're': region        # region的缩写,地区,2005代表海淀  
   }  
  
   headers = {  
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',  
       'Host': 'sou.zhaopin.com',  
       'Referer': 'https://www.zhaopin.com/',  
       'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,\*/\*;q=0.8',  
       'Accept-Encoding': 'gzip, deflate, br',  
       'Accept-Language': 'zh-CN,zh;q=0.9'  
   }  
  
   url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' + urlencode(paras)  
   try:  
       # 获取网页内容,返回html数据  
       response = requests.get(url, headers=headers)  
       # 通过状态码判断是否获取成功  
       if response.status_code == 200:  
           return response.text  
       return None  
   except RequestException as e:  
       return None  
  
def parse\_one\_page(html):  
   '''  
   解析HTML代码,提取有用信息并返回  
   '''  
   # 正则表达式进行解析  
   pattern = re.compile('<a style=.\*? target="\_blank">(.\*?)</a>.\*?'        # 匹配职位信息  
       '<td class="gsmc"><a href="(.\*?)" target="\_blank">(.\*?)</a>.\*?'     # 匹配公司网址和公司名称  
       '<td class="zwyx">(.\*?)</td>', re.S)                                # 匹配月薪        
  
   # 匹配所有符合条件的内容  
   items = re.findall(pattern, html)     
  
   for item in items:  
       job_name = item[0]  
       job_name = job_name.replace('<b>', '')  
       job_name = job_name.replace('</b>', '')  
       yield {  
           'job': job_name,  
           'website': item[1],  
           'company': item[2],  
           'salary': item[3]  
       }  
  
def write\_csv\_file(path, headers, rows):  
   '''  
   将表头和行写入csv文件  
   '''  
   # 加入encoding防止中文写入报错  
   # newline参数防止每写入一行都多一个空行  
   with open(path, 'a', encoding='gb18030', newline='') as f:  
       f_csv = csv.DictWriter(f, headers)  
       f_csv.writeheader()  
       f_csv.writerows(rows)  
  
def write\_csv\_headers(path, headers):  
   '''  
   写入表头  
   '''  
   with open(path, 'a', encoding='gb18030', newline='') as f:  
       f_csv = csv.DictWriter(f, headers)  
       f_csv.writeheader()  
  
def write\_csv\_rows(path, headers, rows):  
   '''  
   写入行  
   '''  
   with open(path, 'a', encoding='gb18030', newline='') as f:  


现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。



分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

![](https://img-blog.csdnimg.cn/img_convert/21b2604bd33c4b6713f686ddd3fe5aff.png)



**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友,可以戳这里无偿获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值