应届生求职网,职位信息函数初步爬取!!!
阿巴阿巴阿巴
(额,我不是博主本人,姑且叫我猕猴tou儿吧。。。)
前面写了关于前途无忧网站的函数一步爬取,这两天又找到了一个职位信息较全的网站:应届生求职网
这个网站数据量大,信息来源广,可谓是很不错,基本操作与前途无忧类似。
不过在进入详细页爬取的过程中,遇到了不少问题,不过聪明的我还是一步一步的解决了。
详细页爬取的思路
这里也是我最苦恼的地方,网站是不规则的,它不像前途无忧的详细页是规律的,应届生的网站是千奇百怪的,当应对不同的详细页,我们爬取文字的位置也各不相同,详细页的网站大抵分为3类。
第一类网站
第二类网站
第三类网站(gg)
上代码。
def word(word=None):
import re
import requests
import time
import pandas as pd
from lxml import etree
h={
'Cookie':'td_cookie=2849040562; __cfduid=d7836f11534bdaad03fc44b0dc56464181593258792; Hm_lvt_b15730ce74e116ff0df97e207706fa4a=1593258790; Hm_lpvt_b15730ce74e116ff0df97e207706fa4a=1593258797',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
K=requests.get('https://s.yingjiesheng.com/search.php?word='+word+'&sort=score&start=0',headers=h)
JX=etree.HTML(K.text)
page1=''.join(JX.xpath('//*[@id="container"]/div[3]/text()'))#处理得到的页码
if page1=='\r\n\r\n\r\n':
page=1
else:
page=re.search('第页/(\d+)页',page1).group(1)
urld=[]
for i in range(