scrapy
一小小辣椒
这个作者很懒,什么都没留下…
展开
-
scrapy 解决中途中断爬取问题
参考代码:爬取政府招标信息 政府招标 思路:爬虫文件开启时本地记录相关爬取信息,下次开启时判断本地记录的信息,跳过已记录的相关内容爬取 def get_erveday(): begin_date = datetime.date(2021,4,1).strftime("%Y-%m-%d") date_list = [] begin_date = datetime.datetime.strptime(begin_date, "%Y-%m-%d") end_date = datet原创 2021-04-22 12:48:07 · 1251 阅读 · 0 评论 -
scrapy 政府招标文件抓取
目标网址:广东政府招标 声明:此内容仅为学习交流使用,不能作商业用途,如需提取相关信息请告知并说明用途,否则一切后果与本人无关。 首先爬取的内容: 分类字段也需要所以要把每个分类做一个字典: subclass_dict ={ "采购意向公开":"59", "单一来源公示":"001051", "进口产品清单":"", "采购计划":"001101", "采购需求":"001059", "资格预审需求":"001052,001053", "采购公告":原创 2021-04-22 12:30:31 · 789 阅读 · 1 评论 -
Python实现一个全国各高校查询系统
想法:整合全国各地高校保存下来,自己随时随地查询各高校官网信息! 资源网站:那些年,我们一起被折磨过的高考 资源提取方式:Scrapy爬虫 保存方式:mysql数据库 scrapy 项目 spider.py 代码: import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from university.items import UniversityIt原创 2021-02-21 23:01:49 · 1791 阅读 · 0 评论