于高效检索的 Elasticsearch 存储

最新推荐文章于 2024-01-21 03:42:48 发布

代码输入中...

最新推荐文章于 2024-01-21 03:42:48 发布

阅读量1.7k

点赞数 1

文章标签： elasticsearch 搜索引擎 lucene

本文链接：https://blog.csdn.net/m0_59485658/article/details/123488354

版权

本文详细介绍了 Elasticsearch，一个基于 Apache Lucene 的分布式搜索引擎。它简化了全文检索，提供快速的存储和分析海量数据的能力。文章涵盖Elasticsearch的基本概念，如节点、集群、索引、文档和字段，以及创建索引、删除索引、插入、更新和删除数据的操作。通过Python库操作Elasticsearch，并演示了中文分词插件ik的使用，展示了全文检索和DSL查询的强大功能。

摘要由CSDN通过智能技术生成

想查数据，就免不了搜索，而搜索离不开搜索引擎。百度、谷歌都是非常庞大、复杂的搜索引擎，它们几乎索引了互联网上开放的所有网页和数据。然而对于我们自己的业务数据来说，没必要用这么复杂的技术。如果我们想实现自己的搜索引擎，为了便于存储和检索，Elasticsearch 就是不二选择。它是一个全文搜索引擎，可以快速存储、搜索和分析海量数据。

所以，如果我们我们将爬取到的数据存储到 Elasticsearch 里面，那将会非常方便检索。

1. Elasticsearch 介绍

Elasticsearch 是一个开源的搜索引擎，建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。

那 Lucene 又是什么呢？Lucene 可能是目前存在的（不论开源还是私有的）拥有最先进、高性能和全功能搜索引擎功能的库，但也仅仅只是一个库。要想用 Lucene，我们需要编写 Java 并引用 Lucene 包才可以，而且我们需要对信息检索有一定程度的理解。

为了解决这个问题，Elasticsearch 就诞生了。Elasticsearch 也是使用 Java 编写的，它的内部使用 Lucene 做索引与搜索，但是它的目标是使全文检索变得简单，相当于 Lucene 的一层封装，它提供了一套简单一致的 RESTful API 来帮助我们实现存储和检索。

所以 Elasticsearch 仅仅就是一个简易版的 Lucene 封装吗？那就大错特错了，Elasticsearch 不仅仅是 Lucene，并且也不仅仅只是一个全文搜索引擎。它可以这样准确形容：

一个分布式的实时文档存储，每个字段可以被索引与搜索；
一个分布式实时分析搜索引擎；
能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据。

总之，它是一个非常强大的搜索引擎，维基百科、Stack Overflow、GitHub 都纷纷采用它来做搜索，不仅仅提供强大的检索能力，也提供强大的存储能力。

2. Elasticsearch 相关概念

在 Elasticsearch 中有几个基本概念，如节点、索引、文档等，下面分别说明一下。理解了这些概念，对熟悉 Elasticsearch 是非常有帮助的。

节点和集群

Elasticsearch 本质上是一个分布式数据库，允许多台服务器协同工作，每台服务器可以运行多个 Elasticsearch 实例。

单个 Elasticsearch 实例称为一个节点（Node），一组节点构成一个集群（Cluster）。

索引

索引，即 Index，Elasticsearch 会索引所有字段，经过处理后写入一个反向索引（Inverted Index）。查找数据的时候，直接查找该索引。

所以，Elasticsearch 数据管理的顶层单位就叫作索引，其实就相当于 MySQL、MongoDB 等中数据库的概念。另外，值得注意的是，每个索引（即数据库）的名字必须小写。

文档

文档，即 Document。索引里面单条记录称为文档，许多条文档构成了一个索引。

同一个索引里面的文档，不要求有相同的结构（Schema），但是最好保持一致，因为这样有利于提高搜索效率。

类型

文档可以分组，比如 weather 这个索引里面，既可以按城市分组（北京和上海），也可以按气候分组（晴天和雨天）。这种分组就叫作类型（Type），它是虚拟的逻辑分组，用来过滤文档，类似 MySQL 中的数据表、MongoDB 中的 Collection。

不同的类型应该有相似的结构。举例来说， id 字段不能在这个组中是字符串，在另一个组中是数值。这是与关系型数据库的表的一个区别。性质完全不同的数据（比如 products 和 logs ）应该存成两个索引，而不是一个索引里面的两个类型（虽然可以做到）。

根据规划，Elastic 6.x 版只允许每个索引包含一个类型，Elastic 7.x 开始将会将其彻底移除。

字段

每个文档都类似一个 JSON 结构，它包含了许多字段，每个字段都有其对应的值，多个字段组成了一个文档，其实就可以类比 MySQL 数据表中的字段。

在 Elasticsearch 中，文档归属于一种类型（Type），而这些类型存在于索引中，我们可以画一些简单的对比图来类比传统关系型数据库：

Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices   -> Types  -> Documents -> Fields

以上就是 Elasticsearch 里面的一些基本概念，通过和关系型数据库的对比更加有助于理解。

3. 准备工作

在开始本节实际操作之前，请确保已经正确安装好了 Elasticsearch，安装方式可以参考： https://setup.scrape.center/elasticsearch，安装完成之后确保其在本地 9200 端口上正常运行即可。

Elasticsearch 实际上提供了一系列 Restful API 来进行存取和查询操作，我们可以使用 curl 等命令或者直接调用 API 来进行数据存储和修改操作，但总归来说并不是很方便。所以这里我们就直接介绍一个专门用来对接 Elasticsearch 操作的 Python 库，名称也叫做 Elasticsearch，使用 pip3 安装即可：

pip3 install elasticsearch

更详细的安装方式可以参考： https://setup.scrape.center/elasticsearch-py。

安装好了之后我们就可以开始本节的学习了。

最低0.47元/天解锁文章

代码输入中...

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
于高效检索的 Elasticsearch 存储

想查数据，就免不了搜索，而搜索离不开搜索引擎。百度、谷歌都是非常庞大、复杂的搜索引擎，它们几乎索引了互联网上开放的所有网页和数据。然而对于我们自己的业务数据来说，没必要用这么复杂的技术。如果我们想实现自己的搜索引擎，为了便于存储和检索，Elasticsearch 就是不二选择。它是一个全文搜索引擎，可以快速存储、搜索和分析海量数据。所以，如果我们我们将爬取到的数据存储到 Elasticsearch 里面，那将会非常方便检索。1. Elasticsearch 介绍Elasticsearch 是一个
复制链接

扫一扫