搜索引擎的介绍及发展

最新推荐文章于 2024-07-11 23:05:11 发布

韩家小志

最新推荐文章于 2024-07-11 23:05:11 发布

阅读量189

点赞数

文章标签：搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46893497/article/details/112300792

版权

基础专栏收录该内容

148 篇文章 0 订阅

订阅专栏

搜索引擎的介绍及发展

1、搜索引擎
2、传统的做法
3、分布式搜索引擎工具

1、搜索引擎

网页搜索引擎：可以用于检索想要查找的网站或者网页
- 谷歌
- 百度
业务搜索引擎：提供内部的业务查询
- 订单搜索
- 商品搜索
- 文章搜索
日志搜索引擎：用于分析处理日志
- 用户访问日志
  - 404
  - 500
  - 统计今天所有用户访问网站出现了多少次500的情况
- 机器运行日志
  - INFO
  - WARN
  - ERROR
  - 统计分析今天出现的所有ERROR的日志

2、传统的做法

将业务数据和日志数据都存储在RDBMS中
类提供业务搜索和日志搜索

select  * from table where name like %keyword%;

id  tile        url             content
1   百度首页    www.baidu.com   【抗击肺炎 新闻 hao123  图片】

问题：容量非常小，如果数据量大，性能非常差
可以对每列构建索引
- 搜索时，通过某列的关键字来搜索，不是完整的搜索
- 搜索：抗击肺炎
- 即使content这一列构建了索引，但是用like %来匹配，数据库中不走索引
  - where content = ‘抗击肺炎’走索引，但是查询不到
  - where content like “%抗击肺炎%”能查到，不走索引
数据库中无法对值进行分词构建索引
- 数据库中最小构建索引单元是列

3、分布式搜索引擎工具

Lucene：最早的搜索引擎工具
- Hadoop的诞生
  - GFS：Google用于分布式存储
  - |
  - NDFS：Hadoop创始人正在负责的项目Nutch
    - Nutch就是Lucene的子项目
  - |
  - HDFS：发布Hadoop
- 缺点：不好用，开发接口非常复杂，学习以及开发成本非常高
Solr：基于Lucene之上构建的工具
- 底层还是Lucene，在上层构建了新的开发接口，比较好用
- 如果数据量比较大，建立索引，solr搜索性能会非常差
ElasticSearch：基于Lucene的
- 汲取了前两代搜索引擎的缺点，规避了
- 对比Solr
  - solr依赖于Zookeeper实现分布式集群管理，ES自己管理集群，自己实现了类似于Zookeeper的功能
  - solr接口比较丰富，es只提供了json数据接口
  - solr本身的功能非常强大，ES只注重索引存储构建，其他的功能都通过插件来实现

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎的介绍及发展

搜索引擎的介绍及发展1、搜索引擎2、传统的做法3、分布式搜索引擎工具1、搜索引擎网页搜索引擎：可以用于检索想要查找的网站或者网页谷歌百度业务搜索引擎：提供内部的业务查询订单搜索商品搜索文章搜索日志搜索引擎：用于分析处理日志用户访问日志404500统计今天所有用户访问网站出现了多少次500的情况机器运行日志INFOWARNERROR统计分析今天出现的所有ERROR的日志2、传统的做法将业务数据和日志数据都存储在RDBMS中类提供
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。