Python-51job网页爬取,职位信息爬取,学习技能,进“大厂” 续 集(二)

针对 Python-51job网页爬取-职位信息爬取这篇博客,有博友表示写的不是很清楚,或者想爬取更具体的内容,这里给大家分享一下爬取51job网的具体教程和爬取职位的具体要求信息;
Python-51job网页爬取-职位信息爬取

一、分析网页结构
1、
图一
图一
大家打开51job网,搜索python,就会出现很多的职位,我们使用F12查看源码,根据上图图一,我们可以看出每一个职位的内容都在一个div标签里面的,每一个div里面的内容格式都大尽相同,这样的格式会大大减小爬取难度;

大家可以尝试去爬取一下豆瓣网站票房数据,那个每一个都是不一样,格式相对较乱,爬取有一定的困难,但也不是不可进行爬取;

2、
这里我们就行web文本内容爬取,

   try:
       headers={
   
                   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
               }
       response = requests.get(url, headers=headers)  # 进行爬取
       t = response.text#获取文本
       #bs = etree.HTML(t)#将爬取的网页数据再生成标准网页格式数据
   except Exception as error:
       print(error)

我们查看我们爬取的文本信息;

print(t)

在这里插入图片描述
我们在我们爬取的文本信息中找到我们需要的信息的位置;
在这里插入图片描述
我们可以看见engine_search_result里面的才是我们需要的内容,下面我们将他从文本信息中分离出来;

bs = etree.HTML(t)#将爬取的网页数据再生成标准网页格式数据
c = bs.xpath("//script[@type='text/javascript']")[2].text#找到所需信息的位置
op = eval(c[29:])['engine_search_result']#将str转化为字典,这样我们就可以很快找到我们需要的信息

在这里插入图片描述
这样我们根据字典里面的内容就可以获取到我们需要的信息;

3、
下面我们将进行爬取每一个职位,公司在招聘是所要的要求;

根据上面我们获取的字典里面我们可以找到``job_href```,这个就是职位的详细信息链接,
在这里插入图片描述

我们来分析职位详细信息网页里面的内容;
在这里插入图片描述
我们可以看到,这个和我们前面分析网页信息是一样的,

  1. 找到具体信息内容
  2. 找到信息所在的标签
  3. 往上,找到整个大标签
  4. 在根据大标签我们来一步一步找到具体位置

这里我想一定有人要问我们都找到他的具体位置了,为什么还要找他的大标签?

这是因为有的小标签的class名称是相同的,我们只有由上到下,一步一步找,相当于一个“绝对定位”;

4、
爬取信息

"""
获取职位信息
"""
lp = [] #职位信息
try:
    for i in l.xpath('//div[@class="bmsg job_msg inbox"]/p'):
        if i.text==
  • 8
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值