【从零开始学爬虫】采集中国国际招标网招标数据

l 采集网站

【场景描述】采集中国国际招标网招标数据。

【源网站介绍】中国国际招标网致力于为企业提供招标、采购、拟在建项目信息及网上招标采购等一系列商务服务。

【使用工具】前嗅ForeSpider数据采集系统

http://www.forenose.com/view/forespider/view/download.html

【入口网址】

http://chinabidding.mofcom.gov.cn/channel/business/bulletinList.shtml?s=

【采集内容】

采集字段:公告名、发布时间、正文内容、链接、公告类型、所属地区。

图片

【采集效果】

如下图所示:

图片

l 思路分析

配置思路概览:

图片

l 配置步骤

1.新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

图片

2.获取分类链接

在浏览器中打开中国国际招标网,我们要采集所有招标公告、招标变更公告、评价结果公示和中标结果公告中的公告内容,所以第一步是获取以上分类的请求链接。

在浏览器中,分别搜索各类公告,发现页面链接没有变化,说明对应的数据在请求链接中。点击F12,打开开发者工具,选择Network,然后搜索任何一个分类比如“招标变更公告”,开发者工具中,出现该分类对应请求,如图所示:

图片

观察发现该请求是一个post请求,其通过post Form Data来传递信息。

该请求的链接为:http://chinabidding.mofcom.gov.cn/zbwcms/front/bidding/bulletinInfoList

该请求的Form Data为:pageNumber&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值