scrapy使用之爬取智联招聘

智联招聘是通过动态加载文件获取数据,所以一开始解析的url不是网页的地址,而是json 文件,寻找json文件的方法。通过查看各个工作具体的网址得知规律;https://job.zhaopin.com/XXXXX.htm, 其中XXXX就是json文件中number对应的值。
步骤:

  1. 解析json文件,得到所有number对应的值
  2. 通过拼接得到新的网址
  3. 进入网址,得到自己想要的内容进入网址,得到自己想要的内容
    源码:
# -*- coding: utf-8 -*-
import scrapy
from  scrapy import Request
import json

from JobScrapy.items import Job


class ZhilianSpider(scrapy.Spider):
    name = 'zhilian'
    #allowed_domains = ['www.zhaopin.com']
    #start_urls = ['https://jobs.zhaopin.com/156244110251133.htm']
    start_urls = ['https://fe-api.zhaopin.com/c/i/sou?start=0&pageSize=60&cityId=489&industry=10100']
    def parse(self,response):
        js=json.loads(response.body)
        #print(js['data'])
        res=js['data']['results']
        for i in res:
            num=i['number']
            # https: // jobs.zhaopin.com / CZ486770730J00164642602.htm
            url='https://jobs.zhaopin.com/'+str(num)+'.htm'
            yield Request(url=url, callback=self.parse_job)
        for i in range(1,2):
            url='https://fe-api.zhaopin.com/c/i/sou?start='+str(i*60)+'0&pageSize=60&cityId=489&industry=10100'
            yield Request(url=url,callback=
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值