l 采集网站
【场景描述】采集中国国际招标网招标数据。
【源网站介绍】中国国际招标网致力于为企业提供招标、采购、拟在建项目信息及网上招标采购等一系列商务服务。
【使用工具】前嗅ForeSpider数据采集系统
http://www.forenose.com/view/forespider/view/download.html
【入口网址】
http://chinabidding.mofcom.gov.cn/channel/business/bulletinList.shtml?s=
【采集内容】
采集字段:公告名、发布时间、正文内容、链接、公告类型、所属地区。
【采集效果】
如下图所示:
l 思路分析
配置思路概览:
l 配置步骤
1.新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
2.获取分类链接
在浏览器中打开中国国际招标网,我们要采集所有招标公告、招标变更公告、评价结果公示和中标结果公告中的公告内容,所以第一步是获取以上分类的请求链接。
在浏览器中,分别搜索各类公告,发现页面链接没有变化,说明对应的数据在请求链接中。点击F12,打开开发者工具,选择Network,然后搜索任何一个分类比如“招标变更公告”,开发者工具中,出现该分类对应请求,如图所示:
观察发现该请求是一个post请求,其通过post Form Data来传递信息。
该请求的链接为:http://chinabidding.mofcom.gov.cn/zbwcms/front/bidding/bulletinInfoList
该请求的Form Data为:pageNumber&#