python 搜索引擎开源_这半个月,我用Python爬虫做了一个开源搜索引擎

作为一个知乎小透明,第一次在知乎发文章真是心情激动。牛逼是一定要吹响的,应该是搜索网站,先吹个搜索引擎吧。

先甩已上线的搜索地址: http://search.mtianyan.cn (后端爬虫还在持续爬取数据中)后端的数据来源:爬虫我采用的是Scrapy框架对于伯乐在线, 国内某知名问答网站,拉勾网的职位进行了温柔的爬取。

中间的数据存储:我采用了elasticSearch单机多实例集群进行存储并为前端的Django提供api。(使用了head插件管理,以及Kibana进行查询调试)

3.Django搜索网站: 使用Django获取后端api数据进行展示(数据还在持续更新)。

项目开始于1.18后我部署完了另一个Django的网站。对于这个被自己交了一次大作业拿到高分的项目。我再次产生了浓厚的兴趣,于是开始修修补补,发现和半年前相比,知乎的接口发生了变化,拉勾网也需要登录了。自己赶工的粗糙代码也看不下去了。(虽然现在的代码也很粗糙:原谅我也是个python一年初学者(逃 。中间走了很多坑,学习参考搬运了很多大神的代码。最终还是成功的在本月末实现了自己一直想要做的搜索网站。

感谢:提供代码给我复用抄袭的大神们。感谢bobby老师的爬虫课程(本搜索基于老师课程)。感谢很多很多给我帮助的人。最后也感谢下自己做不下去了时候坚持的继续。

相关的教程我在书写更新中,欢迎大家关注,点赞,star哦:2018.2最新爬虫打造上线搜索引擎教程 - 文集 - 简书​www.jianshu.comv2-640f7dde88592bdf6417d8ce1902636e_ipico.jpg

爬虫代码已开源于我的Gayhub:mtianyan/ArticleSpider​github.comv2-2253c1a454d9211401fddd9cfebd7614_ipico.jpg

Django搭建的搜索代码:

mtianyan/mtianyanSearch​github.comv2-2253c1a454d9211401fddd9cfebd7614_ipico.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值