作为一个知乎小透明,第一次在知乎发文章真是心情激动。牛逼是一定要吹响的,应该是搜索网站,先吹个搜索引擎吧。
先甩已上线的搜索地址: http://search.mtianyan.cn (后端爬虫还在持续爬取数据中)后端的数据来源:爬虫我采用的是Scrapy框架对于伯乐在线, 国内某知名问答网站,拉勾网的职位进行了温柔的爬取。
中间的数据存储:我采用了elasticSearch单机多实例集群进行存储并为前端的Django提供api。(使用了head插件管理,以及Kibana进行查询调试)
3.Django搜索网站: 使用Django获取后端api数据进行展示(数据还在持续更新)。
项目开始于1.18后我部署完了另一个Django的网站。对于这个被自己交了一次大作业拿到高分的项目。我再次产生了浓厚的兴趣,于是开始修修补补,发现和半年前相比,知乎的接口发生了变化,拉勾网也需要登录了。自己赶工的粗糙代码也看不下去了。(虽然现在的代码也很粗糙:原谅我也是个python一年初学者(逃 。中间走了很多坑,学习参考搬运了很多大神的代码。最终还是成功的在本月末实现了自己一直想要做的搜索网站。
感谢:提供代码给我复用抄袭的大神们。感谢bobby老师的爬虫课程(本搜索基于老师课程)。感谢很多很多给我帮助的人。最后也感谢下自己做不下去了时候坚持的继续。
相关的教程我在书写更新中,欢迎大家关注,点赞,star哦:2018.2最新爬虫打造上线搜索引擎教程 - 文集 - 简书www.jianshu.com
爬虫代码已开源于我的Gayhub:mtianyan/ArticleSpidergithub.com
Django搭建的搜索代码:
mtianyan/mtianyanSearchgithub.com