Elastic Platform 8.14:ES|QL 正式发布、静态加密和向量搜索优化

951 篇文章 583 订阅

作者:来自 Elastic Gilad Gal, Tyler Perkins, Alex Chalkias, Trevor Blackford, Ninoslav Miskovic, Fabio Busatto, Aris Papadopoulos

Elastic Platform 8.14 提供了 Elasticsearch 查询语言 (ES|QL) 的正式发行版 (GA) — Elastic 中数据探索和操作的未来。它还包括其他几个新功能的正式发布本:ECK 上的 Logstash、用于远程集群的基于 API 密钥的安全模型、AIOps 日志模式分析、用于保留和下采样的内置数据流生命周期设置、仪表板链接面板等。此外,在 8.14 中,Elastic Cloud 平台普遍可以使用 AWS Key Management Service (AWS KMS) 中的客户管理密钥对静态数据和快照进行加密。

在相关性排名方面,Elasticsearch 8.14 引入了对向量搜索的优化以提高性能,使向量的标量量化成为默认选项,并引入检索器的概念来简化查询并在查询构造中提供更大的灵活性。

这些新功能使客户能够:

  • 编写强大的查询以新的方式揭示数据见解
  • 使用 AWS KMS 密钥进行静态加密,实现法规合规性并增强安全性
  • 使用数据流轻松管理时间序列数据的保留和下采样
  • 自动管理 Kubernetes 中的 Logstash Pod
  • 查找非结构化日志消息中的模式以加快 RCA 并减少 MTTR

Elastic 8.14 现已在 Elastic Cloud 上推出,这是唯一包含最新版本中所有新功能的托管 Elasticsearch 产品。你还可以下载 Elastic Stack 和我们的云编排产品(Elastic Cloud Enterprise 和 Elastic Cloud for Kubernetes),以获得自我管理的体验。

Elastic 的管道查询语言 ES|QL 现已正式发布

ES|QL 提供了一种在 Elasticsearch 中过滤、转换和分析数据的简化方法。其直观的设计利用 “管道”(|) 进行逐步数据探索,使你能够轻松编写强大的查询以进行详细分析。无论你是开发人员、SRE 还是安全分析师,ES|QL 都可以让你发现特定事件、执行强大的统计分析并创建引人注目的可视化效果。随着我们从技术预览版转向正式版,你将发现 ES|QL 的增强功能并提升你的数据运营。

使用客户管理的密钥加密静态数据和快照

Elastic Cloud 现在支持与 AWS KMS 集成,从而可以使用客户管理的密钥来加密静态部署数据和快照。借助此功能,客户可以:

  • 利用文件系统级加密,使用自己的 AWS KMS 密钥部署静态数据。
  • 在 S3 中使用 AWS 原生机制进行快照加密。
  • 轮换 Elastic Cloud 中使用的密钥,提供额外的安全措施来防止密钥泄露。这可以直接从 AWS KMS 手动完成,也可以从 Elastic Cloud 自动完成。
  • 撤销他们在 Elastic Cloud 中使用的密钥,在紧急情况下充当破碎玻璃操作,并能够恢复操作。这可以直接从 AWS KMS 完成。

此添加通过 Elastic 管理的密钥扩展了现有的静态加密功能。使用客户管理的密钥的主要好处包括合规性和降低与数据存储相关的风险。

检索器(standard、kNN 和 RRF)

检索器(retrievers)是搜索 API 中的一种新抽象概念,用于描述如何检索一组顶级文档。检索器被设计为可以嵌套在树形结构中,因此任何检索器都可以拥有子检索器。检索器是一种标准、更通用且更简单的 API,它取代了其他各种搜索元素,如 kNN 和查询。在 8.14 版本中,我们引入了对三种类型的检索器的支持:

  • Standard — 提供标准查询功能
  • kNN — 启用基于 HNSW 的密集向量搜索
  • RRF — 使用倒数排名融合算法将不同的密集和稀疏向量排名结果集合并成一个单一的混合和排序的结果集

检索器方法的两个主要好处是:

  • 所有检索器的结构都是相同的,因此它们更容易学习、编写和维护。
  • 设计成可以在树结构中组合使用,提供了更多的灵活性来设计之前无法定义的查询 —— 例如,不将 kNN 或 RRF 作为顶级元素。

引入检索器是我们简化搜索使用、特别是向量搜索使用的又一步。这一主题包括了像自动向量标准化以实现更高效的余弦相似度和引入 RRF 以便无需调整即可实现高质量混合集的增强功能。我们将继续在这方面进行大量投资,并计划在未来通过我们新的 ES|QL 语言引入相关性排名。

有关将 RRF 与检索器一起使用的其他示例,请参阅此博客

使用 SIMD (Neon) 针对 int8 向量优化向量距离函数

Elasticsearch 现在使用本机代码使用 SIMD (Neon) 进行向量比较,以提高 ARM AArch64 架构处理器上的性能。此增强的详细信息将在向量相似性计算 - 可笑的速度中讨论。最重要的是,int8 向量的段合并速度比这些处理器上的速度快几倍(通常快 3-6 倍)。此改进为其他任务释放了资源,并加快了段大小优化过程。

这是一系列向量相似性性能改进的又一步。将来,我们打算在其他上下文中使用这种优化,例如改善查询延迟。

密集向量场默认采用 Int8 量化

许多模型生成带有 float32 元素的向量。然而,在检查现实生活场景时,很快就会发现 int8 元素提供了更好的承诺,具有更小的索引(更低的成本)、改进的摄取性能和改进的查询延迟。所有这些都是在几乎不影响排名质量的情况下实现的。有时在质量指标(例如 NDCG 或召回率)排名中可以发现的微小影响可以通过增加正在考虑的候选者数量来轻松减轻。但即使没有这一点,最终用户通常也不会注意到这种变化,从业务角度来看也是如此。

考虑到这一点,我们在 8.12 中向 int8 引入了标量量化。在检查了此功能的生产使用后,我们决定将其设为新索引的默认行为。提供这样的合理默认值可以让用户更轻松地迈出向量搜索的第一步。

Logstash 在 ECK 上正式发布

ECK 上的 Logstash 现在是安装和管理 Logstash 部署的最简单方法,并提供与其他 Elastic Stack 组件管理的无缝操作。只需几行代码,用户就可以在 Kubernetes 上部署和配置 Logstash Pod。当 Logstash 部署在 ECK 上时,现有的 Logstash 管道定义才起作用,使用户可以轻松利用 Kubernetes 的灵活性和可扩展性。 ECK 上的 Logstash 可在 Elastic 的基本和企业许可证下使用。

基于 API 密钥的远程集群安全模型现已正式发布

远程集群连接是所有 CCSCCR 操作的基础:它们必须确保高级安全性,同时保持灵活且易于用户使用。

使用基于 API 密钥的安全模型,管理员可以授予对其数据的细粒度访问权限,并涵盖不反映先前模型假设的现代场景。

在现代世界中,远程集群通常不完全受信任,管理员需要完全控制其数据以及谁可以访问它们。

新的安全模型引入了两个关键假设:

  • 信任关系是单向的:如果 ClusterA 将 ClusterB 配置为其远端,则 ClusterB 无法自动 “回调” ClusterA。
  • 远程管理员在设计上不受信任:保存数据的远程集群可以限制对其索引的给定子集的访问,任何人(包括另一个集群上的超级用户)都不可以访问其他任何内容。

身份验证和授权流程的核心是跨集群 API 密钥 —— 一种新的专用类型,仅适用于此特定任务。 API 密钥可以通过 Elasticsearch API 或使用 Kibana 创建,它们以我们习惯的方式定义 CCS 和 CCR 索引。如果需求随着时间的推移发生变化,它们也可以轻松更新。

基于 API 密钥的安全模型现已在 Elasticsearch 8.14 中正式发布,可用于 Elastic Cloud、Elastic Cloud Enterprise 和独立部署。现在,这是我们为所有支持它的远程集群推荐的选项。

AIOps 日志模式分析普遍可用

在 8.14 中,日志模式分析变为正式发布。日志模式分析可以更快、更智能地调查数千条日志消息,以便分析、排除故障并确定事件的根本原因。将其与异常检测和我们的其他 AIOps 功能相结合,可大幅缩短 MTTR。

数据流生命周期设置现已正式发布

在 8.11 中,我们引入了内置于数据流中的新生命周期设置,作为配置保留或下采样的简单新方法,而无需使用索引生命周期管理 (ILM)。数据流中的这种新的生命周期功能还可以为你处理内务,自动管理翻转和强制合并。现在 8.14 正式发布。

它真的很容易使用。你可以在 Kibana 的 “Index Management - 索引管理” 页面的 “Data Streams - 数据流” 下设置数据流的保留时间:

或者通过 _data_stream API:

PUT _data_stream/my-data-stream/_lifecycle 
{
   "data_retention": "90d"
}

你可以更新现有数据流以使用这些设置、使用此设置创建新数据流或从 ILM 迁移数据流。这也被一些系统索引(例如 ilm-history 和 slm-history)自动使用。

数据流的生命周期设置仅适用于数据流,不适用于常规索引。它还不支持将数据移动到不同的层 - 如果你需要,请暂时使用 ILM

如果你为了方便起见开始在数据流上使用生命周期设置,然后意识到你需要 ILM 来实现某些高级功能(例如数据层),该怎么办?我们为你提供服务:可以根据需要在 ILM 之间切换数据流。只需配置 ILM,它优先于任何数据流生命周期配置。

Discover 和 ES|QL 中的文档比较模式

链接面板已正式发布

现在,你可以使用链接面板轻松从一个仪表板导航到另一个仪表板。通过将仪表板分成多个可视化较少的仪表板并将它们链接在一起,可以更好地组织仪表板并提高其性能。导航到其他仪表板时,你可以继承过滤器、查询和时间范围。水平或垂直显示链接,因为它更适合你的仪表板布局。你还可以使用链接面板在仪表板中包含外部链接,例如 wiki 页面或其他应用程序。并决定是否要在同一浏览器选项卡或新选项卡中打开链接。

仪表板中的链接面板

地区地图正式发布

用户无需浏览复杂的 Elastic Maps 应用程序(旨在供更高级的地理用户使用)来构建简单的地图。他们现在可以通过 Lens 编辑器轻松完成此操作。

新的西班牙语复数词干分析器

在 8.14 中,除了我们已经提供并将继续支持的西班牙语词干分析器之外,我们还添加了对西班牙语词干分析器的支持。这种新的词干分析器将复数转换为单数,但不改变性别,因此它适合特定的用例。

将 MaxMind Enterprise 和 Anonymous IP 文件与摄取 GeoIP 处理器结合使用

我们的客户依靠 GeoIP 丰富来帮助他们定位客户问题、筛查欺诈交易、识别安全威胁和可疑活动等等。你可以使用 GeoIP 丰富摄取处理器将有关 IP 地址位置的信息添加到传入文档中,例如日志条目或安全事件。我们自动下载最新的免费 MaxMind GeoLite2 数据库,以确保它们是最新的(根据 MaxMind EULA 的要求),并将它们分发到整个集群中以供摄取处理使用。

这很方便,可以满足许多客户和用例。然而,一些企业需要付费 GeoIP 文件提供的额外精度和字段,例如 GeoIP2 企业数据库GeoIP2 匿名 IP 数据库。这使他们能够对基于地理位置数据做出的决策更有信心,例如阻止潜在的欺诈性交易或拒绝访问服务。

Elasticsearch 8.14 在技术预览版中添加了对将这两个付费地理数据库与 GeoIP 摄取处理器结合使用的支持。在 8.14 中,你必须管理文件的下载和部署。我们正在努力在未来的版本中添加这些文件的自动下载,以使其更无缝地保持更新。

丰富政策可以针对数据流

说到丰富,现在可以更轻松地使用数据流作为丰富策略的参考数据源。以前,如果数据流是像下面这样的丰富策略的目标...

PUT /_enrich/policy/my-policy
{
  "match": {
    "indices": ["data_stream"],
    "match_field": "fieldA",
    "enrich_fields": ["fieldB", "fieldC"]
  }
}

... 然后返回一个 index_not_found_exception 错误。 Elasticsearch 8.14 现在支持指定数据流作为索引源,因此你可以受益于数据流的时间序列管理功能,同时使用它们进行丰富。

ILM 收缩后写入索引

一旦索引吞吐量不再需要超高写入并行度,你可能会使用 ILM shrink 操作来减少索引中的主分片数量。源索引在收缩处理期间必须是只读的,因此 ILM 将它们设置为只读。从历史上看,ILM 还会将新的(缩小的)索引保留为只读,从而阻止写入。

我们从用户那里得知,当旧文档的更新到达时,他们需要能够写入收缩的索引,因此我们添加了一个选项 (allow_write_after_shrink) 以在收缩后删除写入块。为了向后兼容,此配置参数默认为 false,从而保持目标索引只读。

慢日志中的用户信息

慢日志是主要的故障排除资源之一,用于识别和修复性能不佳且可能影响整个系统的有问题的查询。主要障碍之一是识别执行查询的用户,因为查看查询本身并不总是清楚地弄清楚它。

在Elasticsearch 8.14中,现在可以直接在慢速日志中跟踪调用用户信息,以便管理员可以更高效地解决问题。

你可以通过调用 Update index settings API 为索引和搜索日志条目启用它:

PUT /my-index-000001/_settings
{
  "index.indexing.slowlog.include.user": true,
  "index.search.slowlog.include.user": true
}

之后,输出将报告用户信息:

…
  "auth.type": "REALM",
  "auth.name": "elastic",
  "auth.realm": "reserved"
…

试试看

请在发行说明中了解这些功能以及更多信息。

现有 Elastic Cloud 客户可以直接从 Elastic Cloud 控制台访问其中许多功能。没有利用云上的 Elastic?开始免费试用

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或引用了第三方生成人工智能工具,这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权,我们对其内容、操作或使用不承担任何责任或义务,也不对你使用此类工具可能产生的任何损失或损害负责。在使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。你提交的任何数据都可能用于人工智能培训或其他目的。无法保证你提供的信息将得到安全或保密。在使用之前,你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标记是 Elasticsearch N.V. 的商标、徽标或注册商标。在美国和其他国家。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:Elastic Platform 8.14: ES|QL GA, encryption at rest & vector search optimizations | Elastic Blog

  • 31
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值