2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎直至部署上线(一)

最新推荐文章于 2021-04-08 20:25:05 发布

weixin_34390105

最新推荐文章于 2021-04-08 20:25:05 发布

阅读量270

点赞数

文章标签： python 大数据爬虫

原文链接：https://yq.aliyun.com/articles/630958

版权

最终项目上线演示地址: http://search.mtianyan.cn

第一节：开始我的表演之前, 先讲讲我们会学到什么，点上面链接看看我们能做一个什么。
Github地址: https://github.com/mtianyan/ArticleSpider (欢迎先点个赞)

简介

聚焦Python分布式爬虫必学框架Scrapy打造搜索引擎

人工智能时代，数据先行。围绕着数据可以做的事情越来越多。

mark

比如上面这些领域所需要的数据都是可以通过爬虫来完成收集的。

通过Scrapy分布式爬虫爬取数据，以及结合elasticsearch与Django搭建搜索引擎。

适用人群：初学者，与想进阶的开发者。

收获：获取想要的数据 && 深入认知网络知识和编程知识。

介绍完基础知识通过爬取：

技术社区(伯乐在线), 问答网站(知乎), 知名招聘网站(拉钩网) 来介绍Scrapy常用功能以及分析网站结构和网络请求。

学会通过xpath + css 提取数据, 爬取时也会使用模拟登录

mark

会对Scrapy的spider item item loader pipeline feed export CrawSpider
都进行学习。

mark

mark

对于上面这些小的知识点也都进行讲解。

充分利用多台服务器效率。让爬取速度更快。

通过源码分析: 让大家理解scrapy-redis分布式爬虫
集成bloomfilter到scrapy-redis中

elasticsearch 作为当前最流行的的分布式搜索引擎，被用到很多大公司。我们将用它结合django做一个搜索引擎。

文章搜索 && 问答搜索 && 职位搜索

下面还会有热门搜索和我的搜索。输入关键词之后联想输入点击搜索，进入详情页面。
对搜索关键字进行标红处理，对于数据进行了统计，可以收起左侧。右侧可以看到热门, 和我的记录, 下方有一个分页的效果。点击某一项会跳转到网站。

关注