应届生求职网,职位信息函数爬取!!!稳得一比

本文介绍了如何使用Python和XPath对应届生求职网进行职位信息的初步爬取,面对不规则的详细页,作者通过分类处理解决了爬取难题。最终将数据导出为Excel表格,强调了灵活的思路在应对不同网站结构中的重要性。
摘要由CSDN通过智能技术生成

应届生求职网,职位信息函数初步爬取!!!

阿巴阿巴阿巴
(额,我不是博主本人,姑且叫我猕猴tou儿吧。。。)

前面写了关于前途无忧网站的函数一步爬取,这两天又找到了一个职位信息较全的网站:应届生求职网
这个网站数据量大,信息来源广,可谓是很不错,基本操作与前途无忧类似。
在这里插入图片描述
不过在进入详细页爬取的过程中,遇到了不少问题,不过聪明的我还是一步一步的解决了。

详细页爬取的思路

这里也是我最苦恼的地方,网站是不规则的,它不像前途无忧的详细页是规律的,应届生的网站是千奇百怪的,当应对不同的详细页,我们爬取文字的位置也各不相同,详细页的网站大抵分为3类。

第一类网站

第二类网站

在这里插入图片描述

第三类网站(gg)

在这里插入图片描述

上代码。

def word(word=None):
    import re
    import requests
    import time
    import pandas as pd
    from lxml import etree
    h={
   'Cookie':'td_cookie=2849040562; __cfduid=d7836f11534bdaad03fc44b0dc56464181593258792; Hm_lvt_b15730ce74e116ff0df97e207706fa4a=1593258790; Hm_lpvt_b15730ce74e116ff0df97e207706fa4a=1593258797',
       'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
    K=requests.get('https://s.yingjiesheng.com/search.php?word='+word+'&sort=score&start=0',headers=h)
    JX=etree.HTML(K.text)
    page1=''.join(JX.xpath('//*[@id="container"]/div[3]/text()'))#处理得到的页码
    if page1=='\r\n\r\n\r\n':
        page=1
    else:
        page=re.search('第页/(\d+)页',page1).group(1)
    urld=[]
    for i in range(
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值