Elastic 中国社区官方博客

关于 Elastic Stack 及相关的任何技术

Elasticsearch

关注

文章平均质量分 91

关注数：文章数：955 文章阅读量：2676233 文章收藏量：12331

作者: Elastic 中国社区官方博客

Elastic 首席布道师，Elastic 认证工程师，认证分析师，认证可观测性工程师，阿里云最有价值专家

展开

Elasticsearch：Java ECS 日志记录 - log4j2

ECS 记录器是你最喜欢的日志库的格式化程序/编码器插件。它们可让你轻松将日志格式化为与 ECS 兼容的 JSON。ECS 兼容的 JSON 日志记录可以帮我们简化很多分析，可视化及解析的工作。在今天的文章里，我来详述如何在 Java 应用里生成 ECS 相兼容的日志。如果大家对完整的项目感兴趣，你可以在下载示例代码。

原创 2024-07-22 20:54:22 · 511 阅读 · 0 评论
Elastic 及阿里云 AI 搜索 Tech Day 将于 7 月 27 日在上海举办

参加 Elastic 原厂与阿里云联合举办的 Generative AI 技术交流分享日。借助 The Elastic Search AI Platform，使用开放且灵活的企业解决方案，以前所未有的速度获得搜索最相关的结果。借助强大搜索功能和生成式 AI 的合力，加速商业转化和业务成果。

原创 2024-07-22 17:42:50 · 617 阅读 · 0 评论
使用 Elasticsearch 和 OpenAI 为你的客户成功应用程序构建对话式搜索

在此博客中，我们将探讨如何通过利用大型语言模型 (LLM) 和检索增强生成 (RAG) 等技术实施对话式搜索来增强你的客户成功应用程序。你将了解对话式搜索在客户成功应用程序环境中的优势，以及如何使用 Elasticsearch 有效地实施它。

原创 2024-07-20 21:04:34 · 988 阅读 · 0 评论
Elasticsearch：Retrievers 介绍 - Python Jupyter notebook

在今天的文章里，我是继上一篇文章 “Elasticsearch：介绍 retrievers - 搜索一切事物” 来使用一个可以在本地设置的 Elasticsearch 集群来展示 Retrievers 的使用

原创 2024-07-19 22:00:07 · 1272 阅读 · 0 评论
Elasticsearch 中的位向量

从 Elasticsearch 中的向量搜索开始，我们就支持浮点值（float）。在 8.6 版中，我们添加了对字节（byte）编码向量的支持。在 8.14 版中，我们添加了自动量化到半字节值（half-byte）的功能。在 8.15 版中，我们添加了对位（bit）编码向量的支持。但是，什么是位向量及其实际含义？正如字面上所言，位向量是向量的每个维度都是一个位（bit）。当将向量的数据大小与典型的浮点值进行比较时，位向量的大小减少了 32 倍之多。

原创 2024-07-18 15:32:53 · 1009 阅读 · 1 评论
Elasticsearch：评估搜索相关性 - 第 1 部分

这是一系列博客文章中的第一篇，讨论如何在更好地理解 BEIR 基准的背景下考虑评估你自己的搜索系统。我们将介绍具体的技巧和技术，以便在更好地理解 BEIR 的背景下改进你的搜索评估流程。我们还将介绍导致评估可靠性降低的常见陷阱。最后，我们注意到 LLM 为搜索工程师提供了一个强大的新工具，我们将通过示例展示如何使用它们来帮助评估搜索。

原创 2024-07-18 10:31:04 · 1189 阅读 · 3 评论
Elasticsearch：如何选择向量数据库？

领域是一个快速发展的领域，它正在改变我们管理和搜索数据的方式。与传统数据库不同，向量数据库以向量的形式存储和管理数据。这种独特的方法可以实现更精确、更相关的搜索，并允许在检索中使用机器学习，使向量数据库成为一种非常宝贵的工具。随着我们生成的数据量不断增长，向量数据库在数据管理和搜索中的作用变得越来越重要。这是因为结果的相关性以及能够处理非结构化数据。选择正确的向量数据库可以为你的应用程序带来巨大的变化，但这并不总是一件容易的事。

原创 2024-07-18 08:30:58 · 1120 阅读 · 0 评论
介绍 Elasticsearch 中的 Learning to Tank - 学习排名

从 Elasticsearch 8.13 开始，我们提供了原生集成到 Elasticsearch 中的学习排名 (learning to rank - LTR) 实现。LTR 使用经过训练的机器学习 (ML) 模型为你的搜索引擎构建排名功能。通常，该模型用作第二阶段重新排名器，以提高由更简单的第一阶段检索算法返回的搜索结果的相关性。这篇博文将解释此新功能如何帮助提高文本搜索中的文档排名以及如何在 Elasticsearch 中实现它。

原创 2024-07-16 21:04:11 · 1648 阅读 · 1 评论
Elastic 线下 Meetup 将于 2024 年 7 月 27 号在深圳举办

2024 Elastic Meetup 深圳站活动，由 Elastic、腾讯、新智锦绣联合举办，现诚邀广大技术爱好者及开发者参加。

原创 2024-07-16 13:22:41 · 1227 阅读 · 0 评论
Elasticsearch：使用 Amazon Bedrock 的 semantic_text

使用 semantic_text 新功能，并使用 AWS Bedrock 作为推理端点服务。Elasticsearch 的新类型旨在简化构建 RAG 应用程序的常见挑战。它整合了文本分块、生成嵌入以及检索嵌入的步骤。在本文中，我们将使用 Amazon Bedrock 作为我们的推理服务，在不离开 Elastic 的情况下创建一个端到端 RAG 应用程序。

原创 2024-07-14 08:50:43 · 874 阅读 · 0 评论
Elasticsearch：介绍 retrievers - 搜索一切事物

在 8.14 中，Elastic 在 Elasticsearch 中引入了一项名为 “retrievers - 检索器” 的新搜索功能。继续阅读以了解它们的简单性和效率，以及它们如何增强你的搜索操作。检索器是 Elasticsearch 中搜索 API 中添加的新抽象层。它们提供了在单个 _search API 调用中配置多阶段检索管道的便利。此架构通过消除对复杂搜索查询的多个 Elasticsearch API 调用的需求，简化了应用程序中的搜索逻辑。

原创 2024-07-11 20:51:33 · 954 阅读 · 0 评论
实验场：在几分钟内使用 Bedrock Anthropic Models 和 Elasticsearch 进行 RAG 实验

我们最近发布了 Elasticsearch Playground，这是一个新的低代码界面，开发人员可以通过 A/B 测试 LLM、调整提示（prompt）和分块数据来迭代和构建生产 RAG 应用程序。今天，我们宣布 Amazon Bedrock 支持 Playground，为你带来更多来自 Amazon、Anthropic 和其他领先提供商的基础模型选择。

原创 2024-07-11 20:26:45 · 1128 阅读 · 0 评论
Elasticsearch 开放推理 API 增加了对 Amazon Bedrock 的支持

Elasticsearch 开放推理 API 增加了对托管在 Amazon Bedrock 上的模型生成嵌入的支持。Elasticsearch 开放 infereence API 使开发人员能够创建推理端点并使用来自领先提供商的机器学习模型。从今天开始，托管在 Amazon Bedrock 上的模型将通过 Elasticsearch 开放提供。

原创 2024-07-11 13:17:14 · 833 阅读 · 0 评论
Elasticsearch：使用 Filebeat 从 Node.js Web 应用程序提取日志

本指南演示了如何从 Node.js Web 应用程序中提取日志并将其安全地传送到 Elasticsearch Service 部署中。你将设置 Filebeat 来监控具有标准 Elastic Common Schema (ECS) 格式字段的 JSON 结构日志文件，然后在向 Node.js 服务器发出请求时，你将在 Kibana 中查看日志事件的实时可视化。虽然此示例使用的是 Node.js，但这种监控日志输出的方法适用于多种客户端类型。查看可用的 ECS 日志记录插件列表。

原创 2024-07-10 15:29:49 · 1984 阅读 · 1 评论
Elasticsearch：Node.js ECS 日志记录 - Morgan

在今天的文章中，我将描述如何使用 Morgan 包针对 Node.js 应用进行日子记录。此 Morgan Node.js 软件包为 morgan 日志中间件（通常与 Express 一起使用）提供了一个格式化程序，与 Elastic Common Schema (ECS) 日志记录兼容。结合 Filebeat 发送器，你可以在 Elastic Stack 中的一处监控所有日志。

原创 2024-07-10 09:01:31 · 906 阅读 · 0 评论
使用 Unstructured.io 和 Elasticsearch 向量数据库搜索复杂文档

使用非结构化和 Elasticsearch 向量数据库为 RAG 应用程序提取和搜索复杂的专有文档在使信息可搜索之前解析文档是构建实际 RAG 应用程序的重要步骤。和 Elasticsearch 在此场景中有效地协同工作，为开发人员提供构建 RAG 应用程序的互补工具。提供了一个工具库，用于提取、清理和转换不同格式和不同内容源的文档。

原创 2024-07-09 10:11:23 · 1483 阅读 · 0 评论
Elasticsearch：深度学习与机器学习：了解差异

近年来，两项突破性技术一直站在创新的最前沿 —— 机器学习 (machine learning - ML) 和深度学习 (deep learning - DL)。人工智能 (AI) 的这些子集远不止是流行语。它们是推动医疗保健、金融等各行业进步的关键力量。机器学习具有从数据中学习并做出明智决策的能力，它改变了计算机执行任务的方式，使曾经被认为需要人类智能才能完成的流程自动化。深度学习是机器学习的一个更复杂的，它从人类大脑中汲取灵感，利用神经网络以前所未有的规模消化和学习大量数据。

原创 2024-07-09 09:36:51 · 773 阅读 · 0 评论
Elasticsearch：Node.js ECS 日志记录 - Winston

这是继上一篇文章 “Elasticsearch：Node.js ECS 日志记录 - Pino” 的续篇。我们继续上一篇文章来讲述使用 Winston 包来针对 Node.js 应用生成 ECS 向匹配的日子。此 Node.js 软件包为 winston 记录器提供了格式化程序，与 Elastic Common Schema (ECS) 日志记录兼容。结合 Filebeat 发送器，你可以在 Elastic Stack 中的一处监控所有日志。支持 winston 3.x 版本 >=3.3.3。

原创 2024-07-08 15:52:39 · 868 阅读 · 0 评论
Elasticsearch：Node.js ECS 日志记录 - Pino

Node.js ECS 记录器是你最喜欢的日志库的格式化插件。它们可轻松将你的日志格式化为与 ECS 兼容的 JSON。结合 filebeat，你可以将日志直接发送到 Elasticsearch，并利用 Kibana 的日志应用程序在一个地方检查所有日志。Node.js ECS 日志格式化程序记录结构化的 JSON，并支持对来自 Node.js 核心和流行 Web 框架的错误对象和 HTTP 请求和响应对象进行序列化。提示：想要了解有关 ECS、ECS 日志记录和其他可用语言插件的更多信息？请参阅。

原创 2024-07-08 10:28:19 · 1253 阅读 · 6 评论
Elasticsearch：Ingest architectures - 摄取架构

我们提供各种采集架构，以满足各种用例和网络配置的需求。要将数据采集到 Elasticsearch，请使用最符合你的需求和用例的选项。对于许多用户和用例来说，最简单的方法是使用 Elastic Agent 采集数据并将其发送到 Elasticsearch。Elastic Agent 和适用于许多流行的平台和服务，是一个不错的起点。：你可以在自己的硬件上托管 Elasticsearch，也可以将数据发送到 Elastic Cloud 上的 Elasticsearch。

原创 2024-07-04 15:36:51 · 1537 阅读 · 2 评论
Elasticsearch：结合稀疏、密集和地理字段

Elasticsearch 是一款强大的工具，可用于近乎实时地搜索和分析数据。作为开发人员，我们经常会遇到包含各种不同字段的数据集。有些字段是必填字段，或者包含的数据超过平均水平，而有些字段则很少。缺少许多值的字段称为 “稀疏（sparse）” 字段，而存在大多数值的字段称为 “密集（dense）” 字段。当然，我们还有那些表示地理位置数据的地理位置字段。在本文中，我们将介绍如何查询具有不同字段的数据。我们将探索稀疏、密集和地理字段的集成，以增强你的搜索功能。我们将介绍实际示例（使用我最喜欢的 book

原创 2024-07-04 10:23:47 · 1246 阅读 · 0 评论
Elasticsearch：Runtime fields - 运行时字段（二）

运行时字段（runtime fields）是在查询时计算的字段。运行时字段使你能够：- 向现有文档添加字段而无需重新索引数据- 开始处理数据而无需了解其结构- 在查询时覆盖索引字段返回的值- 定义用于特定用途的字段而无需修改底层架构你可以像访问其他任何字段一样从 search API 访问运行时字段，Elasticsearch 对运行时字段的看法也一样。你可以在 index mapping 或 search request 中定义运行时字段。你的选择是运行时字段固有灵活性的一部分。

原创 2024-07-03 11:40:22 · 907 阅读 · 0 评论
Elasticsearch：Runtime fields - 运行时字段（一）

运行时字段通常包含一个 Painless 脚本，该脚本以某种方式操纵数据。但是，有些情况下，你可能会定义一个运行时字段而不使用脚本。例如，如果你想从 _source 中检索单个字段而不进行更改，则不需要脚本。如果未提供脚本，Elasticsearch 会在查询时隐式地在 _source 中查找与运行时字段同名的字段，并返回一个值（如果存在）。如果不存在同名的字段，则响应不包含该运行时字段的任何值。在大多数情况下，尽可能通过doc_values检索字段值。

原创 2024-07-02 20:44:06 · 1419 阅读 · 0 评论
生成式人工智能将如何改变网络可访问性

受 Be My Eyes 和 OpenAI 启发的一项实验，尝试使用 ChatGPT 4o 实现网页无障碍。在 Elastic，我们肩负着一项使命，不仅要构建最佳的搜索驱动型 AI 平台，还要确保尽可能多的人喜欢使用该平台。我们相信，开放可访问性不仅可以将我们的受众扩大到新用户，还可以为所有用户带来更好的体验。然而，问题在于，传统的 Web 可访问性虽然出于良好的意图，但却让人感觉像是在圆孔中插入方枘。对于 Kibana 等复杂、视觉堆叠的应用程序来说，情况尤其如此。

原创 2024-07-02 12:13:37 · 1003 阅读 · 0 评论
Elasticsearch：Painless scripting 语言（二）

Elasticsearch：Painless scripting 语言（二）

原创 2024-07-01 17:20:24 · 949 阅读 · 1 评论
统一的可观察性和安全性如何增强你的业务？

利用人工智能、异常检测和增强攻击发现功能，在一个平台上增强组织的可观察性和安全性能力当今数字环境中的组织越来越关注服务可用性，并保护其软件免受恶意篡改和攻击。传统的安全和可观察性工具通常以孤岛形式运行，导致观点分散，事件响应延迟。集成可观察性和安全性的统一平台对于加速软件交付和性能以及增强安全性至关重要。利用 AI 和 ML 技术以及先进的攻击发现方法可以显著改善这种集成，从而提供一种全面而主动的方法来管理安全性和应用程序运行状况。

原创 2024-07-01 11:35:13 · 589 阅读 · 0 评论
Elasticsearch：Painless scripting 语言（一）

Painless 是一种高性能、安全的脚本语言，专为 Elasticsearch 设计。你可以使用 Painless 在 Elasticsearch 支持脚本的任何地方安全地编写内联和存储脚本。

原创 2024-06-30 12:43:12 · 1317 阅读 · 0 评论
15 个适用于企业的生成式 AI 用例

关于及其能做什么（和不能做什么）有很多讨论。生成式人工智能（例如大型语言模型 -）利用从大量训练数据中学习到的模式和结构来创建原创内容，而无需存储数据本身。这包括创建文本、软件代码和艺术等。虽然它可以创建内容，但它不会很快。尽管如此，它正在重塑全球行业的格局，从增强网络安全防御到个性化客户体验。事实上，99% 的受访组织表示，。让我们深入研究生成式人工智能如何通过协助使用它的人来释放新的可能性并改变日常业务运营。

原创 2024-06-30 09:07:08 · 1356 阅读 · 0 评论
实验场：在几分钟内使用 Elasticsearch 进行 RAG 应用程序实验

我们很高兴发布我们的 Playground 体验 —- 一个低代码界面，开发人员可以在几分钟内使用自己的私人数据探索他们选择的 LLM。在对对话式搜索进行原型设计时，快速迭代和试验 RAG 工作流的关键组件（例如：混合搜索或添加重新排名）的能力非常重要 —- 以便从 LLMs 获得准确且无幻觉的响应。Elasticsearch 向量数据库和 Search AI 平台为开发人员提供了广泛的功能，例如全面的混合搜索，以及使用来自越来越多的 LLM 提供商的创新。

原创 2024-06-29 17:53:31 · 1405 阅读 · 0 评论
GenAI 用于客户支持 — 第 1 部分：构建我们的概念验证

欢迎来到 Inside Elastic 博客系列，我们将展示 Elastic 的内部运营如何解决实际业务挑战。本系列将揭示我们将生成式 AI（gererative AI - GenAI）集成到客户成功和支持运营中的历程，让你了解我们流程的幕后情况。我们在构建此功能的同时，也在博客中介绍它，我们很高兴你能加入我们的行列！

原创 2024-06-29 17:08:05 · 710 阅读 · 0 评论
Elasticsearch 与 OpenSearch：解开向量搜索性能差距

Elasticsearch 的开箱即用的向量搜索速度比 OpenSearch 快 2 到 12 倍。向量搜索正在彻底改变我们进行相似性搜索的方式，尤其是在人工智能和机器学习等领域。随着向量嵌入模型的日益普及，高效搜索数百万个高维向量的能力变得至关重要。Elastic 收到了来自社区的大量请求，要求我们澄清 Elasticsearch 和 OpenSearch 之间的性能差异，尤其是在语义搜索/向量搜索领域。鉴于这个主题的重要性，我们进行了性能测试，以提供清晰的、数据驱动的比较 —— 没有歧义，只有直截了

原创 2024-06-27 13:11:23 · 1603 阅读 · 3 评论
使用 Elastic ELSER 和 Llama3 的 RAG（使用 Langchain）

在之前的文章 “使用 Llama 3 开源和 Elastic 构建 RAG”，我们讲到了如何使用 Liama3 来结合 Elastic ELSER 来进行 RAG。在今天的文章里，我们来详细使用一个 notebook 来展示如何在本地 Elasticsearch 部署中进行实现。此交互式 notebook 使用 Langchain 处理虚构的工作场所文档，并使用在 Elasticsearch 中运行的 ELSER v2 将这些文档转换为嵌入并将它们存储到 Elasticsearch 中。然后我们提出

原创 2024-06-26 10:33:12 · 1163 阅读 · 0 评论
Elasticsearch：使用 semantic_text 简化语义搜索

semantic_text - 你知道，用于语义搜索！你是否想开始使用语义搜索来搜索数据，但专注于模型和结果而不是技术细节？我们引入了 semantic_text 字段类型，它将处理你所需的细节和基础架构。语义搜索（semantic search）是一种复杂的技术，旨在通过利用机器学习模型来增强搜索结果的相关性。与传统的基于关键字的搜索不同，语义搜索专注于理解单词的含义及其使用的上下文。这是通过应用机器学习模型来实现的，这些模型可以提供对文本的更深入的语义理解。

原创 2024-06-25 15:01:32 · 1253 阅读 · 0 评论
Elasticsearch：使用 Llamaindex 的 RAG 与 Elastic 和 Llama3

这篇文章是对之前的文章 “使用 Llama 3 开源和 Elastic 构建 RAG” 的一个补充。我们可以在本地部署 Elasticsearch，并进行展示。我们将一步一步地来进行配置并展示。你还可以参考我之前的另外一篇文章 “Elasticsearch：使用在本地计算机上运行的 LLM 以及 Ollama 和 Langchain 构建 RAG 应用程序”。

原创 2024-06-25 12:35:53 · 971 阅读 · 0 评论
将 Cohere 与 Elasticsearch 结合使用

本教程中的说明向你展示了如何使用推理 API 使用 Cohere 计算嵌入并将其存储起来，以便在 Elasticsearch 中进行高效的向量或混合搜索。本教程将使用 Python Elasticsearch 客户端执行操作。本教程使用数据集。请参阅，了解使用不同数据集的示例。

原创 2024-06-24 12:50:30 · 1055 阅读 · 0 评论
Elasticsearch 数据提取 - 最适合这项工作的工具是什么？

了解在 Elasticsearch 中为你的搜索用例提取数据的所有不同方式。对于搜索用例，高效采集和处理来自各种来源的数据的能力至关重要。无论你处理的是 SQL 数据库、CRM 还是任何自定义数据源，选择正确的数据采集工具都会对你的 Elasticsearch 体验产生重大影响。在本博客中，我们将探索 Elastic Stack 的三种搜索数据采集工具：Logstash、客户端 API 以及我们的 Elastic Native Connectors + Elastic Connector Framewo

原创 2024-06-22 12:59:51 · 1566 阅读 · 1 评论
Elasticsearch：倒数排序融合 - Reciprocal rank fusion - 8.14

此功能处于技术预览阶段，可能会在未来版本中更改或删除。语法可能会在正式发布之前发生变化。Elastic 将努力修复任何问题，但技术预览中的功能不受官方正式发布功能的支持 SLA 约束。倒数排序融合 (reciprocal rank fusion - RRF) 是一种将具有不同相关性指标的多个结果集组合成单个结果集的方法。RRF 无需调整，并且不同的相关性指标不必相互关联即可获得高质量的结果。：在今天的文章中，RFF 有别于之前版本。这个描述是从 8.14.0 开始的。在这个版本之前，请参阅 “

原创 2024-06-21 16:45:19 · 1515 阅读 · 1 评论
使用 Llama 3 开源和 Elastic 构建 RAG

使用开源的 Llama 3 和 Elastic 构建 RAGLlama 3 是 Meta 最近推出的开源大型语言模型。这是 Llama 2 的后继者，根据已发布的指标，这是一个重大改进。与 Gemma 7B Instruct、Mistral 7B Instruct 等最近发布的一些模型相比，它具有良好的评估指标。该模型有两个变体，分别是 80 亿和 700 亿参数。值得注意的是，在撰写这篇博客时，Meta 仍在训练 400B+ 版本的 Llama 3。

原创 2024-06-21 09:34:48 · 978 阅读 · 0 评论
Elasticsearch：不用高深的数学知识来理解 LLMs 是如何工作的

我相信您同意，我们无法忽视生成式人工智能 (GenAI)，因为我们不断被有关大型语言模型 (LLMs) 的主流新闻轰炸。你很可能已经尝试过 ChatGPT，甚至可能一直将其作为助手使用。我认为很多人对 GenAI 革命有一个基本疑问，即这些模型的明显智能来自哪里。在本文中，我将尝试用简单的术语解释生成式文本模型的工作原理，而不使用高级数学，以帮助你将它们视为计算机算法而不是魔法。

翻译 2024-06-20 20:39:43 · 1846 阅读 · 0 评论
使用 Elasticsearch 中的地理语义搜索增强推荐功能

浏览地理和富文本数据是一项重大挑战，尤其是对于景点推荐服务而言。当数据是非结构化和多语言数据时，处理大量且多样化的数据（例如评论、评分、图像、位置、标签和营业时间）会变得很复杂。Elasticsearch 的混合地理语义搜索（hybrird goe-semantic search）功能通过在单一平台内结合空间数据处理和高级向量文本分析，提供了实用的解决方案。无论你是在搜索地标还是适合家庭的景点，Elasticsearch 都能实现精确而高效的数据检索。

原创 2024-06-19 08:59:37 · 1751 阅读 · 3 评论