re:Invent 2023 | 通过 Elasticsearch 查询语言(ES|QL)转换数据调查

关键字: [Amazon Web Services re:Invent 2023, ESQL, Esql Query Language, Esql Faster Query Speed, Esql Unified Experience, Esql Data Processing, Esql Alerting Capabilities]

本文字数: 1800, 阅读完需: 9 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1gC4y1w74L

导读

引入 ES|QL,Elastic 的创新管道查询语言,旨在通过提供强大的计算和聚合功能,加速数据分析和调查过程。轻松高效地浏览识别正在展开的网络安全事件或查明生产问题的复杂性。ES|QL 不仅简化了大规模数据集的搜索、聚合和可视化,还为用户提供了查找和实时处理等高级功能,所有这些都是从单个屏幕完成的。加入本论坛,探索 ES|QL 对可观察性和安全性的变革性影响,并从 Informatica 这一先驱用户如何战略性地应用 ES|QL。本演示文稿由亚马逊云科技合作伙伴 Elastic 为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华,共1500字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

在2022年亚马逊云科技re:Invent的下午时段,来自Elastic security团队的Nina Sla和James Pari向观众致欢迎辞。Nina表示,她很高兴能向大家介绍ESQL(Elasticsearch查询语言)及其如何改变数据调查方式。她承认,开发ESQL是一个漫长的过程,这得益于整个公司的Elastic工程团队的支持,而ESQL的发展才刚刚开始。

Nina向观众提问,目前是否有人在使用Elastic?大约有一半的人举起了手,表明他们是现有的Elastic用户。对于已经使用Elastic的用户,Nina希望他们能够亲眼看到ESQL带来的好处。而对于其他观众,她鼓励他们尝试公共的Elastic演示网站或设置一个云账户来体验ESQL。

谈到ESQL解决的主要问题,Nina解释说,当前的一个主要挑战是大量非结构化数据涌入企业。行业估计,90%的数据都是非结构化的,如日志文件、指标、事件等。Elastic的客户正在以各种格式从他们的系统和应用程序中接收这些不同的数据类型。总体目标是让用户能够高效地筛选这些大量的数据以找到见解。

虽然Elastic已经在Kibana分析中提供了强大的用户驱动的工作流程来访问这些数据,但许多用户习惯于更表达式的驱动的工作流程和领域特定的查询语言。这种反馈激发了Elastic投资于开发ESQL,提供了一种更快的搜索能力的同时,还提供了一种富有表现力的、全面的定制语言,用于数据调查和探索。愿景是让每个用户都能够访问、探索和可视化他们的数据。

尼娜详细介绍了ESQL的三个关键组件,这些组件类似于Kinder Surprise蛋。首先,ESQL具有一个非常强大的分布式查询引擎,专为速度和可扩展性而设计。ESQL查询被解析并优化,以便在节点间分布执行,以块方式而不是逐行操作。它并行处理查询并利用多线程。根据Elastic的基准测试,在许多情况下,ESQL的性能优于标准的Elasticsearch查询。一个公开的Elastic仪表板跟踪了与默认ES查询相比,ESQL的性能随时间的改进。在某些情况下,即使没有启用任何额外的优化,ESQL仍然更快。

为了证明性能的提升,尼娜分享了一个基准样本查询,该查询对纽约出租车行程大型数据集上的乘客数量对总费用进行简单聚合。多线程ESQL查询的运行速度比单线程ESQL快3倍,比标准Elasticsearch聚合查询快5倍。这种改进的程度令人印象深刻。

第二个关键组件是ESQL语言本身。ESQL查询从源命令开始,用于检索并生成作为表的数据,类似于SQL的FROM子句。处理命令然后对这些表执行操作,使用管道字符链接在一起。每个命令都在管道中的上一个命令的输出上工作。

尼娜概述了一些关键的ESQL命令:

  • FROM - 从Elasticsearch索引中检索数据
  • WHERE - 过滤数据
  • ENRICH - 查找并丰富数据集
  • EVAL - 使用函数转换数据
  • STATS - 汇总数据

ESQL有一个全面的内置函数库,涵盖诸如聚合、日期格式化、字符串操作等类别。文档提供了可用函数的完整参考。

为了展示这个语言的力量,尼娜展示了一个示例ESQL查询,该查询选择了与登录页面相关的Apache Web日志,将日志条目分成15分钟的时间间隔,计算每个用户的登录次数,并按登录尝试最多的用户排序结果。这输出了表格和聚合结果的可视表示。总之,ESQL表达力强、功能强大、可组合、可扩展且速度快。

第三个关键组件是ESQL,这是Nina所讲述的一种技术。ESQL能够跨Kibana产品(包括Discover、Security和Observability)实现统一用户体验。用户可以在Kibana内完全集成地进行数据探索、可视化和转换,无需切换上下文。例如,在Kibana Discover控制面板中,展示了ESQL查询和相关可视化图表。ESQL直接在Kibana内部激活数据,而不仅仅是显示静态结果。除了Discover之外,ESQL还将在Security Timeline和Alerting以及Elastic AI Assistant中使用。

在ESQL开发过程中,Elastic与像Informatica这样的客户进行了私人测试计划,以收集反馈。Informatica专门从事企业数据管理和集成软件,以帮助组织处理和分析大量数据。Informatica广泛使用Elastic进行安全监控、应用性能监控、日志分析和其他用例。一些统计数据突出了Informatica大型Elastic部署的特点:60,000+分片;每天处理37 TB的数据;运营200多个数据节点。

Informatica的beta测试人员对ESQL给予了压倒性的积极反馈。他们表示,一旦发布,ESQL将成为他们的主要查询语言。特别让他们期待的是,从一次EQL查询而不是单独步骤中运行聚合、过滤和查找所带来的巨大时间节省。Informatica计划实施的具体用例包括使用ESQL来聚合、转换和搜索指标、日志和轨迹,以快速定位性能问题。

接下来,James Pari上台演示了在各种用例中如何使用ESQL。他从调查可疑的“cdnverify.net”DNS请求的安全示例开始,该请求触发了Elastic Security的警报。在Security Timeline中,James使用KQL筛选出DNS请求。但是,DNS日志只记录了透明的文本消息字段中的解析IP地址。正常情况下,这需要重新索引数据以解析出IP。但是,使用ESQL,James展示了如何使用DISSECT命令直接解析它,从而在没有等待的情况下将IP地址立即提取到可用的字段中。

过滤并预处理网络流量

  • 按用户、进程和天汇总流量量
  • 丰富数据以分类内部用户类型
  • 评估阈值并对事件添加标签以便进一步跟进

这18行ESQL代码实现了这个多步骤的场景,而之前需要在不同的系统之间进行大量的努力。此外,詹姆斯还展示了如何使用ESQL查询在Elastic Security中构建检测规则和警报。这为安全团队提供了使用ESQL的强大和灵活性来定制警报的全控能力。

除了在安全方面的作用外,詹姆斯还展示了另一个在Kibana Discover中的ESQL示例,用于识别经历高接收延迟的数据源。通过比较事件的创建时间和Elastic的接收时间,他发现VPC流日志在生成到在Elastic中可搜索之间有平均197秒的延迟。可以轻松配置一个警报来在此过程中标记此问题。

然后,詹姆斯演示了如何通过_query API端点直接调用ESQL,而不是通过Kibana。这允许从应用程序和服务而非庞大的JSON中干净地传递ESQL查询。已经添加了有用的日志记录、诊断和输出格式,以帮助监控和调试ESQL。

最后,詹姆斯展示了如何启用Elastic的AI助手来理解ESQL。用户可以通过自然语言提问并获得构建查询的帮助。助手甚至可以自动注释ESQL查询的每一部分,用解释说明。这为用户提供了一个简单的方法来利用大型语言模型按需生成ESQL查询。

总的来说,Nina回顾了一些ESQL的关键优势,如更短的洞察时间、减少数据处理障碍、增强的警报功能和一款强大新的搜索引擎。演示展示了ESQL如何简化诸如安全调查和可观察性分析等任务,这些任务在过去需要在不同的系统中完成许多复杂的步骤。ESQL被视为使用Elasticsearch发掘数据价值的一个重大突破。

在演讲结束后,Nina和James回答了观众的提问。他们强调在亚马逊云科技的re:Invent期间,整个星期都会在展台上展示更多关于ESQL的演示和使用案例。对于想要亲自尝试ESQL的人,公开的Elastic演示网站提供了访问样本数据的权限。Nina和James对他们刚刚开始使用的ESQL的未来充满期待。他们迫不及待地想看用户在安全、可观察性、日志分析等方面如何将ESQL作为一种革新性的新方法来探索、分析和解锁数据见解。

下面是一些演讲现场的精彩瞬间:

领导者对ESQO的推出感到兴奋,这是Elastic才华横溢的工程师们共同努力的成果。

他们认为这仅仅是一个开始。

演讲者谈到了用户在多个系统和数据类型间访问数据的挑战,这使得各种查询语言和数据组织方法得以发展。

在多次基准测试中,Athena ESQO的表现优于ESL,并且还有一个公开的可视化仪表板来监控其优化进程。

领导者们还讨论了使用日期函数对数据字段进行分桶以及通过对DNS日志进行聚合操作来进行分析的方法。

领导者展示了如何通过简单的单行查询使用Amazon Athena执行复杂的分析。

总结

Elasticsearch查询语言(ESQL)是一种创新的搜索和分析工具,旨在更快地提供深入见解。作为分布式查询引擎,ESQL能够在同一时间执行多个查询,从而实现更高的速度。这种新型管道查询语言通过将数据过滤、聚合和转换等命令相互连接,简化了数据调查过程。这使得用户在无需离开Kibana的情况下就能获取洞察。此外,ESQL为整个Elastic Stack,包括安全、可观察性和分析产品等提供了统一的查询体验。其主要优势包括更快的洞察时间、减少将数据引入Elasticsearch的摩擦、增强后处理数据能力、提高警报功能的准确性以及一个全新的、针对即席数据探索进行优化的搜索引擎。通过提供丰富的表达性,ESQL使得复杂的数据调查和可视化变得更加容易访问,从而激发数据的潜力并使其转化为财富。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134819553

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李白的朋友高适

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值