使用 Elasticsearch 实现百万级数据高效导出的实践

原创已于 2025-03-25 13:01:29 修改

· 440 阅读

4 ·

版权

文章标签：

#全文检索 #excel

于 2025-03-25 12:56:31 首次发布

在实际业务场景中，我们经常需要从 Elasticsearch（简称 ES）中导出大量数据，比如用于数据分析、备份或迁移。然而，当数据量达到百万甚至千万级别时，直接一次性导出可能会导致内存溢出、性能下降等问题。因此，我们需要采用分页查询和批量处理的方式，来实现高效的数据导出。

本文将介绍如何使用 Elasticsearch 的 `scroll` API 和 `search_after` API 来实现百万级数据的导出，并附带完整的 Java 示例代码。

一、Elasticsearch 数据导出的核心方法

1. Scroll API
Scroll API 是一种适合大批量数据导出的机制，它通过维护一个“快照”来支持长时间的分页查询。虽然 Scroll API 在旧版本中被广泛使用，但在新版本中已被标记为“仅适用于大批量数据导出”。它的主要特点是：
- 适合大数据量的全量导出。
- 需要手动清理 Scroll 上下文。

2. Search After API
Search After 是一种更现代的分页方式，它通过排序字段来实现高效的分页查询。相比 Scroll API，Search After 更轻量，且不需要维护额外的上下文。它的主要特点是：
- 更适合实时查询和增量导出。
- 需要明确的排序字段。

二、Java 实现百万级数据导出

下面我们将分别介绍如何使用 Scroll API 和 Search After API 来实现百万级数据的导出，并附上完整的 Java 示例代码。

1. 使用 Scroll API 导出数据

java：

import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.action.search.SearchScrollRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.Scroll;
import org.elasticsearch.search.builder.SearchSourceBuilder;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.util.List;

public class ScrollExportExample {

    private static final String INDEX_NAME = "your_index_name";
    private static final String OUTPUT_FILE_PATH = "output.csv";

    public static void main(String[] args) throws IOException {
        try (RestHighLevelClient client = new RestHighLevelClient(/* 配置客户端 */)) {
            // 初始化 Scroll 查询
            SearchRequest searchRequest = new SearchRequest(INDEX_NAME);
            SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
            sourceBuilder.query(QueryBuilders.matchAllQuery());
            sourceBuilder.size(1000); // 每次获取 1000 条数据
            searchRequest.scroll(new Scroll(TimeValue.timeValueMinutes(1L)));
            searchRequest.source(sourceBuilder);

            // 执行初始搜索
            SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
            String scrollId = searchResponse.getScrollId();
            List<?> hits = searchResponse.getHits().getHits();

            // 写入文件
            try (BufferedWriter writer = new BufferedWriter(new FileWriter(OUTPUT_FILE_PATH))) {
                while (!hits.isEmpty()) {
                    for (Object hit : hits) {
                        // 假设每条记录是一个 JSON 对象
                        String record = hit.toString();
                        writer.write(record);
                        writer.newLine();
                    }

                    // 继续滚动查询
                    SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);
                    scrollRequest.scroll(new Scroll(TimeValue.timeValueMinutes(1L)));
                    searchResponse = client.scroll(scrollRequest, RequestOptions.DEFAULT);
                    scrollId = searchResponse.getScrollId();
                    hits = searchResponse.getHits().getHits();
                }
            }

            System.out.println("数据导出完成！");
        }
    }
}

关键点解析：
1. **Scroll 时间**：`TimeValue.timeValueMinutes(1L)` 表示每次滚动的有效时间为 1 分钟。
2. **批量大小**：`sourceBuilder.size(1000)` 表示每次查询返回 1000 条记录。
3. **文件写入**：使用 `BufferedWriter` 将数据逐行写入文件。

2. 使用 Search After API 导出数据

java：

import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.elasticsearch.search.sort.SortOrder;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.util.List;

public class SearchAfterExportExample {

    private static final String INDEX_NAME = "your_index_name";
    private static final String OUTPUT_FILE_PATH = "output.csv";

    public static void main(String[] args) throws IOException {
        try (RestHighLevelClient client = new RestHighLevelClient(/* 配置客户端 */)) {
            // 初始化 Search After 查询
            SearchRequest searchRequest = new SearchRequest(INDEX_NAME);
            SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
            sourceBuilder.query(QueryBuilders.matchAllQuery());
            sourceBuilder.sort("_id", SortOrder.ASC); // 按 _id 排序
            sourceBuilder.size(1000); // 每次获取 1000 条数据
            searchRequest.source(sourceBuilder);

            Object[] searchAfterValues = null; // 初始值为空
            try (BufferedWriter writer = new BufferedWriter(new FileWriter(OUTPUT_FILE_PATH))) {
                while (true) {
                    // 设置 Search After 参数
                    if (searchAfterValues != null) {
                        sourceBuilder.searchAfter(searchAfterValues);
                    }

                    // 执行查询
                    SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
                    List<SearchHit> hits = List.of(searchResponse.getHits().getHits());

                    if (hits.isEmpty()) {
                        break; // 如果没有更多数据，退出循环
                    }

                    // 写入文件
                    for (SearchHit hit : hits) {
                        String record = hit.getSourceAsString();
                        writer.write(record);
                        writer.newLine();

                        // 更新 Search After 值
                        searchAfterValues = hit.getSortValues();
                    }
                }
            }

            System.out.println("数据导出完成！");
        }
    }
}

关键点解析：
1. **排序字段**：`sourceBuilder.sort("_id", SortOrder.ASC)` 使用 `_id` 字段进行排序，确保结果有序。
2. **Search After**：通过 `searchAfterValues` 动态更新下次查询的起点。
3. **终止条件**：当查询结果为空时，退出循环。

三、注意事项

1. **性能优化**：
- 确保 ES 集群有足够的资源支持大规模查询。
- 调整批量大小（`size` 参数）以平衡内存消耗和查询效率。
2. **数据一致性**：
- Scroll API 可能会读取到过期数据，因为它基于快照。
- Search After API 更适合实时性要求高的场景。
3. **文件存储**：
- 如果数据量特别大，可以考虑分片存储，避免单个文件过大。

四、总结

本文介绍了如何使用 Elasticsearch 的 Scroll API 和 Search After API 实现百万级数据的高效导出，并提供了完整的 Java 示例代码。两种方法各有优劣，具体选择取决于业务需求和数据规模。在实际应用中，建议根据场景特点选择合适的方法，并注意性能调优和资源管理。

希望本文对您有所帮助！如果您有任何问题，欢迎在评论区留言讨论。