应届生求职网，职位信息函数爬取！！！稳得一比

最新推荐文章于 2024-05-01 00:53:08 发布

猴猴猴子

最新推荐文章于 2024-05-01 00:53:08 发布

阅读量959

点赞数 3

分类专栏：爬虫文章标签： python xpath 大数据

本文链接：https://blog.csdn.net/WjoKe/article/details/107018505

版权

本文介绍了如何使用Python和XPath对应届生求职网进行职位信息的初步爬取，面对不规则的详细页，作者通过分类处理解决了爬取难题。最终将数据导出为Excel表格，强调了灵活的思路在应对不同网站结构中的重要性。

摘要由CSDN通过智能技术生成

应届生求职网，职位信息函数初步爬取！！！

阿巴阿巴阿巴

（额，我不是博主本人，姑且叫我猕猴tou儿吧。。。）

前面写了关于前途无忧网站的函数一步爬取，这两天又找到了一个职位信息较全的网站：应届生求职网
这个网站数据量大，信息来源广，可谓是很不错，基本操作与前途无忧类似。
在这里插入图片描述
不过在进入详细页爬取的过程中，遇到了不少问题，不过聪明的我还是一步一步的解决了。

详细页爬取的思路

这里也是我最苦恼的地方，网站是不规则的，它不像前途无忧的详细页是规律的，应届生的网站是千奇百怪的，当应对不同的详细页，我们爬取文字的位置也各不相同，详细页的网站大抵分为3类。

第一类网站

第二类网站

在这里插入图片描述

第三类网站（gg）

在这里插入图片描述

上代码。

def word(word=None):
    import re
    import requests
    import time
    import pandas as pd
    from lxml import etree
    h={
   'Cookie':'td_cookie=2849040562; __cfduid=d7836f11534bdaad03fc44b0dc56464181593258792; Hm_lvt_b15730ce74e116ff0df97e207706fa4a=1593258790; Hm_lpvt_b15730ce74e116ff0df97e207706fa4a=1593258797',
       'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
    K=requests.get('https://s.yingjiesheng.com/search.php?word='+word+'&sort=score&start=0',headers=h)
    JX=etree.HTML(K.text)
    page1=''.join(JX.xpath('//*[@id="container"]/div[3]/text()'))#处理得到的页码
    if page1=='\r\n\r\n\r\n':
        page=1
    else:
        page=re.search('第页/(\d+)页',page1).group(1)
    urld=[]
    for i in range(