百度、谷歌等搜索引擎的实现原理

引言

本文只是介绍实现思路针对使用技术进行介绍,无相关代码。
推荐技术solr ,hadoop ,lucene/ElasticSearch,nutch一条龙服务

第一步分词

推荐使用IKanalyze或者mmseg4j,对中英文良好的支持,作用为将一句话拆成多个词汇。
亦可使用多个分词技术

第二步匹配关键词

将获得的关键词逐一进入数据库进行匹配(当然实际是去缓存)
匹配结束后会获得每个词汇的一些文章

第三步清洗获得的文章

对获得的文章进行清洗,留下包含多个关键词的文章,去掉只含少量关键词的文章

第四步排序输出

推荐三种算法模型
1.贝叶斯概率模型
2.向量空间模型
3.词频概率模型

重点说明

因为本身涉及算法和缓存不涉及业务
1.有能力的话算法层面调用python
2.缓存使用一致性算法的分布式缓存注意缓存雪崩即可
3.前端方面采用AJAXRPC让相应更加迅速

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

seal_li

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值