先贴上项目的背景信息:
如上表格即为需要爬取到的信息,根据提取要求,先分析需要提取的内容都分布在目标网站哪里,
先打开目标网站,这里以必联网为例,假设搜索的关键字为:路由器
此网站打开:https://ss.ebnew.com/tradingSearch/index.htm
可以看到的内容包括:信息类型、标题、产品范畴、招标方式、招标截止时间,招标截止时间
打开其中一个项目详情,进入到二级页面:
可以看到项目编号(这里为空),所属行业
页面继续往下滑动,可以看到项目编号,确认清楚自己需要的内容在页面何处,那么接下来确认目标实现路径,这里使用scrapy框架,爬虫领域比较知名,确认好实现框架,那按部就班先构建出一个scrapy 项目,
#scrapy实战# 爬取招标网站信息(一)
最新推荐文章于 2024-08-15 20:09:27 发布
本文介绍了使用Scrapy框架爬取招标网站信息的初步步骤。首先,通过`scrapy startproject`创建了一个名为`zhaobiao`的项目,接着进入项目并使用`scrapy genspider`创建了名为`bilian`的爬虫,目标站点为`ebnew.com`。内容包括获取信息类型、标题、产品范畴等字段。在实际爬取前,强调了设置请求头和代理IP的重要性,为后续深入讲解Scrapy框架原理和实践打下基础。
摘要由CSDN通过智能技术生成