scrapy 政府招标文件抓取

最新推荐文章于 2024-07-08 14:59:20 发布

一小小辣椒

最新推荐文章于 2024-07-08 14:59:20 发布

阅读量745

点赞数 1

分类专栏：爬虫 scrapy 文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_40018318/article/details/116008295

版权

本文介绍如何使用Python的Scrapy框架抓取广东政府招标网站的数据，包括分类、时间段等信息，需要注意GET请求的参数设置和Json数据的解析，以及处理重定向问题。

摘要由CSDN通过智能技术生成

目标网址：广东政府招标
声明：此内容仅为学习交流使用，不能作商业用途，如需提取相关信息请告知并说明用途，否则一切后果与本人无关。
首先爬取的内容：
在这里插入图片描述
分类字段也需要所以要把每个分类做一个字典：

subclass_dict ={
   
    "采购意向公开":"59",
    "单一来源公示":"001051",
    "进口产品清单":"",
    "采购计划":"001101",
    "采购需求":"001059",
    "资格预审需求":"001052,001053",
    "采购公告":"00101",
    "中标（成交）结果公告":"00102",
    "更正公告":"00103",
    "终止公告":"001004,001006",
    "合同公告":"001054",
    "验收公告":"001009,00105A"
}

获取数据这是一个GET请求，参数：
在这里插入图片描述当然，后面还有时间段需要传入大概就写成：

item["channel"] = '07be11ca-1511-451f-afbb-6a2cb1e990d1' if k == "进口产品清单" else 'fca71be5-fc0c-45db-96af-f513e9abda9d'
            yield scrapy.Request(
  	           url=self.start_urls[0].format(item["channel"],item["page"],v,yesterday_format,now_time),
                #"2019-12-01"
                headers=headers,
                callback=self.parse,
                meta=copy.deepcopy(item)

翻页操作：

#页面内容少于10条，则退出
        if item["heigth"] < 9:
            return

最低0.47元/天解锁文章

一小小辣椒

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
scrapy 政府招标文件抓取

目标网址：广东政府招标声明：此内容仅为学习交流使用，不能作商业用途，如需提取相关信息请告知并说明用途，否则一切后果与本人无关。首先爬取的内容：分类字段也需要所以要把每个分类做一个字典：subclass_dict ={ "采购意向公开":"59", "单一来源公示":"001051", "进口产品清单":"", "采购计划":"001101", "采购需求":"001059", "资格预审需求":"001052,001053", "采购公告":
复制链接

扫一扫

专栏目录