华为云数据湖探索（DLI）介绍、安装、hello world、Location匹配

最新推荐文章于 2022-06-17 09:06:49 发布

liudahai777

最新推荐文章于 2022-06-17 09:06:49 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/li123128/article/details/107484536

版权

本文探讨了在华为云数据湖探索（DLI）服务中，使用Spark处理Elasticsearch数据时遇到的分布式一致性问题。通过幂等性写入策略，如覆盖写入和利用doc_id实现最终一致性，来确保写入数据的正确性。同时介绍了DLI对Spark访问Elasticsearch的支持，提供DataFrame API和SQL语句进行数据读写。

摘要由CSDN通过智能技术生成

Spark与Elasticsearch（es）的结合，是近年来大数据解决方案很火热的一个话题。一个是出色的分布式计算引擎，另一个是出色的搜索引擎。近年来，越来越多的成熟方案落地到行业产品中，包括我们耳熟能详的Spark+ES+HBase日志分析平台。

目前，华为云数据湖探索（DLI）服务已全面支持Spark/Flink跨源访问Elasticsearch。而之前在实现过程中也遇到过很多场景化问题，本文将挑选其中比较经典的分布式一致性问题进行探讨。

分布式一致性问题

问题描述

数据容错是大数据计算引擎面临的主要问题之一。目前，主流的开源大数据比如Apache Spark和Apache Flink已经完全实现了Exactly Once语义，保证了内部数据处理的正确性。但是在将计算结果写入到外部数据源时，因为外部数据源架构与访问方式的多样性，始终没能找到一个统一的解决方案来保证一致性（我们称为Sink算子一致性问题）。再加上es本身没有事务处理的能力，因此如何保证写入es数据一致性成为了热点话题。

我们举一个简单的例子来说明一下，图1在SparkRDD中（这里假设是一个task），每一条蓝色的线代表100万条数据，那么10条蓝色的线表示了有1000万条数据准备写入到CSS（华为云搜索服务，内部为es）的某个index中。在写入过程中，系统发生了故障，导致只有一半（500万条）数据成功写入。

task是Spark执行任务的最小单元，如果task失败了，当前task需要整个重新执行。所以，当我们重新执行写入操作（图2），并最终重试成功之后（这次用红色来表示相同的1000万条数据），上一次失败留下的500万条数据依然存在（蓝色的线），变成脏数据。脏数据对数据计算的正确性带来了很严重的影响。因此，我们需要探索一种方法，能够实现Spark写入es数据的可靠性与正确性。