ISASearch:基于分布式爬虫的信安技术文章搜索引擎
摘 要随着大数据时代的到来,信息的获取与检索尤为重要,如何在海量的数据中快速准确获取到我们需要的内容显得十分重要。因此本项目为了更好的整合利用安全领域特有的社区资源优势,首先使用Scrapy爬虫框架结合NoSQL数据库Redis编写分布式爬虫,并对先知、安全客、嘶吼三个知名安全社区进行技术文章的爬取;然后选取ElasticSearch搭建搜索服务,同时提供了RESTful web接口;最后通过Django搭建可视化站点,供用户透明的对文章进行搜索。关键词: 分布式爬虫; Scrapy; 搜索引擎; Re
原创
2020-07-02 15:35:05 ·
945 阅读 ·
0 评论