scrapy 政府招标文件抓取

本文介绍如何使用Python的Scrapy框架抓取广东政府招标网站的数据,包括分类、时间段等信息,需要注意GET请求的参数设置和Json数据的解析,以及处理重定向问题。
摘要由CSDN通过智能技术生成

目标网址:广东政府招标
声明:此内容仅为学习交流使用,不能作商业用途,如需提取相关信息请告知并说明用途,否则一切后果与本人无关。
首先爬取的内容:
在这里插入图片描述
分类字段也需要所以要把每个分类做一个字典:

subclass_dict ={
   
    "采购意向公开":"59",
    "单一来源公示":"001051",
    "进口产品清单":"",
    "采购计划":"001101",
    "采购需求":"001059",
    "资格预审需求":"001052,001053",
    "采购公告":"00101",
    "中标(成交)结果公告":"00102",
    "更正公告":"00103",
    "终止公告":"001004,001006",
    "合同公告":"001054",
    "验收公告":"001009,00105A"
}

获取数据这是一个GET请求,参数:
在这里插入图片描述当然,后面还有时间段需要传入大概就写成:

item["channel"] = '07be11ca-1511-451f-afbb-6a2cb1e990d1' if k == "进口产品清单" else 'fca71be5-fc0c-45db-96af-f513e9abda9d'
            yield scrapy.Request(
  	           url=self.start_urls[0].format(item["channel"],item["page"],v,yesterday_format,now_time),
                #"2019-12-01"
                headers=headers,
                callback=self.parse,
                meta=copy.deepcopy(item)

翻页操作:

#页面内容少于10条,则退出
        if item["heigth"] < 9:
            return 
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值