NOSQL数据仓库：全文检索 Elasticsearch与Solr

最新推荐文章于 2024-01-18 02:11:37 发布

Hanson.

最新推荐文章于 2024-01-18 02:11:37 发布

阅读量557

点赞数

分类专栏：软件-分布式计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kinglapland/article/details/99644529

版权

软件-分布式计算专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、Elasticsearch数据库

数据存储的最小单位是文档，本质上是一个JSON 文本。

采用Restful API标准的可扩展和高可用的实时数据分析的全文搜索工具，通过http接口使用JSON格式进行操作数据。

高可用：在一个集群的多个节点中进行分布式存储，索引支持shards和复制，即使部分节点down掉，也能自动进行数据恢复和主从切换。

二、使用场景

2.1 搜索引擎

数据量少时可以直接从主数据库中比如Mysql搜索，但当搜索做到一定程度时，比如系统数据量上了10亿、100亿条的时候，传统的关系型数据库的I/O性能和统计分析性能就难以满足用户需要了。

所以很多公司都会把搜索单独做成一个独立的模块，用ElasticSearch等来实现。

虽然内存缓存数据库的读写性能很高，但完全把数据放在内存中是不太现实的，比如到PB级别的数据，按照每个节点96G内存计算，在内存完全装满的数据情况下，需要的机器是：1PB=1024T=1048576G ，节点数就是1048576/96=10922个，再考虑到数据备份，节点数还需要翻倍，成本巨大决定了其不现实！ElasticSearch是强大的全文搜索引擎。

2.2 日志分析

Elasticsearch+ Logstash + Kibana是同一家公司开发的3个开源工具，可组合起来搭建海量日志分析平台，目前很多公司都在使用这种方式搭建日志分析平台进行大数据分析。

https://blog.csdn.net/aisemi/article/details/80212836 Elasticsearch数据库

apache lucene是apache下一个著名的开源搜索引擎内核，基于Java技术，处理索引，拼写检查，点击高亮和其他分析，分词等技术。

nutch和solr原来都是lucene下的子项目。但后来nutch独立成为独立项目。nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎，后归于apache旗下。nutch主要完成抓取，提取内容等工作。

solr则是基于lucene的搜索界面。提供XML/HTTP 和 JSON/Python/Ruby API，提供搜索入口，点击高亮，缓存，备份和管理界面。

hadoop原来是nutch下的分布式任务子项目，现在也成为apache下的顶级项目。nutch可以利用hadoop进行分布式多任务抓取和分析存储工作。

所以，lucene,nutch,solr,hadoop一起工作，是能完成一个中型的搜索引擎工作的。

https://www.cnblogs.com/zgghb/p/4261462.html solr ,hadoop ,lucene,nutch 的关系和区别

有solr为什么还要使用数据库 https://zhidao.baidu.com/question/758318134504557044.html

https://zhidao.baidu.com/question/1993496443102527707.html?qbl=relate_question_0&word=solr%20%CA%FD%BE%DD%B2%D6%BF%E2%20%CA%FD%BE%DD%BF%E2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。