数据的 DNA：使用 Elastic Common Schema 提高效率

Elastic 中国社区官方博客

于 2024-10-07 10:00:10 发布

阅读量606

点赞数 9

分类专栏： Observability Elastic Elasticsearch 文章标签：服务器运维大数据搜索引擎安全 elasticsearch

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/UbuntuTouch/article/details/142735699

版权

Elastic 同时被 3 个专栏收录

1513 篇文章 905 订阅

订阅专栏

Elasticsearch

1036 篇文章 596 订阅

订阅专栏

Observability

171 篇文章 31 订阅

订阅专栏

作者：来自 Elastic Peter Titov

Elastic ECS 有助于改善日志字段的语义转换。了解如何量化规范化数据的好处，不仅是为了提高基础设施效率，也是为了提高数据保真度。

Elastic Common Schema 是一种简化和统一搜索体验的绝佳方式。通过将不同的数据源整合到通用语言中，用户在解释感兴趣的事件、解决事故或寻找未知威胁时可以降低难度。但是，有底层基础设施原因可以证明采用 Elastic Common Schema 是合理的。

在本博客中，你将了解 ECS 的可量化运营优势、如何将 ECS 与任何数据采集工具结合使用以及应避免的陷阱。本博客中利用的数据源是从 Kaggle 获得的 3.3GB Nginx 日志文件。此数据集的表示分为三类：raw、self 和 ECS；其中 raw 数据集没有标准化，self 数据集是我与各种用户合作 5 年以上经验中观察到的常见错误的示例，最后是 ECS，它具有最佳的数据清理方法。

这种清理是通过解析、丰富和映射采集的数据来实现的；类似于 DNA 测序以表达遗传特征。通过了解数据的结构并分配正确的映射，可以表示、存储和搜索更全面的表达。

如果你想了解有关 ECS、本博客中使用的数据集或可用的 Elastic 集成的更多信息，请务必查看以下相关链接：

数据集验证

在开始之前，让我们先回顾一下有多少文档以及我们需要提取哪些内容。我们的 Nginx 日志文件中有 10,365,152 个文档/事件：

我们的目标最终状态中有 10,365,152 份文档：

数据集提取：raw 和 self 提取

为了实现 raw 和 self 提取技术，此示例利用 Logstash 以简化操作。对于原始数据提取，只需输入简单的文件，无需额外修改或索引模板。


    input {
      file {
      id => "NGINX_FILE_INPUT"
      path => "/etc/logstash/raw/access.log"
      ecs_compatibility => disabled
      start_position => "beginning"
      mode => read
      }
    }
    filter {
    }
    output {
      elasticsearch {
        hosts => ["https://mycluster.es.us-east4.gcp.elastic-cloud.com:9243"]
          index => "nginx-raw"
          ilm_enabled => true
          manage_template => false
          user => "username"
          password => "password"
          ssl_verification_mode => none
          ecs_compatibility => disabled
          id => "NGINX-FILE_ES_Output"
      }
    }

对于 self 摄取，创建了一个带有简单 Grok 过滤器的自定义 Logstash 管道，没有应用任何索引模板：

    input {
      file {
        id => "NGINX_FILE_INPUT"
        path => "/etc/logstash/self/access.log"
        ecs_compatibility => disabled
        start_position => "beginning"
        mode => read
      }
    }
    filter {
      grok {
        match => { "message" => "%{IP:clientip} - (?:%{NOTSPACE:requestClient}|-) \[%{HTTPDATE:timestamp}\] \"(?:%{WORD:requestMethod} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" (?:-|%{NUMBER:response}) (?:-|%{NUMBER:bytes_in}) (-|%{QS:bytes_out}) %{QS:user_agent}" }
      }
    }
    output {
      elasticsearch {
        hosts => ["https://myscluster.es.us-east4.gcp.elastic-cloud.com:9243"]
        index => "nginx-self"
        ilm_enabled => true
        manage_template => false
        user => "username"
        password => "password"
        ssl_verification_mode => none
        ecs_compatibility => disabled
        id => "NGINX-FILE_ES_Output"
      }
    }

数据集提取：ECS

Elastic 附带许多可用的集成，其中包含你需要实现的一切，以确保尽可能高效地提取数据。

对于我们的 Nginx 用例，我们将仅使用相关集成的资产。

安装的资产不仅仅是仪表板，还有摄取管道，它们不仅可以规范化数据，还可以丰富数据，同时通过组件模板将字段映射到正确的类型。我们要做的就是确保在数据进入时，它将遍历摄取管道并使用这些提供的映射。

创建索引模板，然后选择集成提供的组件模板。

将组件模板视为索引模板的构建块。这些模板允许重复使用核心设置，从而确保在整个数据中采用标准化。

对于我们的提取方法，我们仅指向在索引模板创建期间指定的索引名称，在这种情况下，nginx-ecs 和 Elastic 将处理所有其余部分！

    input {
      file {
      id => "NGINX_FILE_INPUT"
      path => "/etc/logstash/ecs/access.log"
      #ecs_compatibility => disabled
      start_position => "beginning"
      mode => read
      }
    }
    filter {
    }
    output {
      elasticsearch {
        hosts => ["https://mycluster.es.us-east4.gcp.elastic-cloud.com:9243"]
        index => "nginx-ecs"
        ilm_enabled => true
        manage_template => false
        user => "username"
        password => "password"
        ssl_verification_mode => none
        ecs_compatibility => disabled
        id => "NGINX-FILE_ES_Output"
      }
    }