Python爬虫抓取智联招聘(基础版)_智联招聘 爬虫

本文介绍了如何使用Python爬虫抓取智联招聘网站上的职位名称、公司名称、公司详情页地址和职位月薪。解析HTML,去除职位名称中的标签,将数据保存到CSV文件,并使用tqdm展示进度条。
摘要由CSDN通过智能技术生成

接下来我们要分析有用数据,从搜索结果中我们需要的数据有:职位名称、公司名称、公司详情页地址、职位月薪:

通过网页元素定位找到这几项在HTML文件中的位置,如下图所示:

用正则表达式对这四项内容进行提取:

# 正则表达式进行解析  
pattern = re.compile('<a style=.\*? target="\_blank">(.*?)</a>.*?'        # 匹配职位信息  
   '<td class="gsmc"><a href="(.\*?)" target="\_blank">(.*?)</a>.*?'     # 匹配公司网址和公司名称  
   '<td class="zwyx">(.*?)</td>', re.S)                                # 匹配月薪        
  
# 匹配所有符合条件的内容  
items = re.findall(pattern, html)

注意:解析出来的部分职位名称带有标签,如下图所示:

那么在解析之后要对该数据进行处理剔除标签,用如下代码实现:

for item in items:  
   job_name = item[0]  
   job_name = job_name.replace('<b>', '')  
   job_name = job_name.replace('</b>', '')  
   yield {  
       'job': job_name,  
       'website': item[1],  
       'company': item[2],  
       'salary'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值