____公司项目 需要 实时 查询 一些数据,所以 决定使用 scrapy 框架 搭一个爬虫服务接口,
____因为具体业务需要,决定既要支持 实时 的调用并返回 查询结果,也要定时自动去爬取 定向url数据 存到本地数据库中,
即 在以后的查询中,会先去 本地数据库中读取 信息,当没有时再去 抓取,并返回。
思路:
____网上查了半天,scrapy开发很多教程,但关于 管理scrapy服务的却不多,github上有几个开源框架但感觉 更麻烦,还查到 scrapy 内置的web-service却也是一脸茫然,
____最后试了试 scrapyd 感觉还行,所以决定 以后 决定 在scrapyd 外层 包一个处理逻辑,接收java 发来的请求 并 去查询本地库,当没有本地数据,就开启新的爬取任务,