Python爬虫抓取智联招聘（基础版）_智联招聘爬虫

最新推荐文章于 2024-08-02 09:46:03 发布

m0_60575487

最新推荐文章于 2024-08-02 09:46:03 发布

阅读量366

点赞数 3

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_60575487/article/details/138347000

版权

本文介绍了如何使用Python爬虫抓取智联招聘网站上的职位名称、公司名称、公司详情页地址和职位月薪。解析HTML，去除职位名称中的标签，将数据保存到CSV文件，并使用tqdm展示进度条。

摘要由CSDN通过智能技术生成

接下来我们要分析有用数据，从搜索结果中我们需要的数据有：职位名称、公司名称、公司详情页地址、职位月薪：

通过网页元素定位找到这几项在HTML文件中的位置，如下图所示：

用正则表达式对这四项内容进行提取：

# 正则表达式进行解析  
pattern = re.compile('<a style=.\*? target="\_blank">(.*?)</a>.*?'        # 匹配职位信息  
   '<td class="gsmc"><a href="(.\*?)" target="\_blank">(.*?)</a>.*?'     # 匹配公司网址和公司名称  
   '<td class="zwyx">(.*?)</td>', re.S)                                # 匹配月薪        
  
# 匹配所有符合条件的内容  
items = re.findall(pattern, html)

注意：解析出来的部分职位名称带有标签，如下图所示：

那么在解析之后要对该数据进行处理剔除标签，用如下代码实现：

for item in items:  
   job_name = item[0]  
   job_name = job_name.replace('<b>', '')  
   job_name = job_name.replace('</b>', '')  
   yield {  
       'job': job_name,  
       'website': item[1],  
       'company': item[2],  
       'salary'