干货 | 携程Elasticsearch数据同步实践

最新推荐文章于 2024-06-18 07:00:00 发布

携程技术

最新推荐文章于 2024-06-18 07:00:00 发布

阅读量3.2k

点赞数 3

文章标签：大数据编程语言数据库 mysql java

本文链接：https://blog.csdn.net/ctrip_tech/article/details/109523310

版权

作者简介

dot，携程技术经理，专注高并发、高性能领域。

一、背景

Elasticsearch是最近几年非常热门的分布式搜索和数据分析引擎，携程内部不仅使用ES实现了大规模的日志平台，也广泛使用ES实现了各个业务场景的搜索、推荐等功能。

本文聚焦在业务搜索的场景分享了我们在做数据同步方面的思考和实践，希望能对大家有所启发。

二、现状调研

数据同步是个很麻烦的事情，在各种论坛、分享中被大家反复讨论。

我们的需求大致包括全量、增量地从Hive、MySql、Soa服务、Mq等不同类型的数据源获取数据，部分数据还需要进行一定的计算或者转换，然后近实时地同步到ES中，以被用户搜索到。

为了讨论方便，假定本文的场景是文章搜索的场景：

1）索引内容为文章，主要的信息保存在article表里；

2）每个文章关联了tag，保存在article_tag表里；

3）tag表里的tagName也需要进入ES索引，以便使用标签名字搜索文章；

在以前同步这样的数据进入ES，单条文章的数据组装伪代码如下：

List<Long> tagIds = articleTagDao.query("select tagId from article_tags where articleId=?", articleId);
List<TagPojo> tags =tagDao.query("select id, name from tags whereid in (?)");
ArticleInEs articleInEs = new ArticleInEs();
articleInEs.setTagIds(tagIds);
articleInEs.setTagNames(tags.stream().filter(tag-> tagIds.contains(tag.getId())).map(TagPojo::getName).collect(Collectors.toList()));

只是一个标签的信息的组装代码就如此繁琐，而实际的情况要复杂得多。比如可能会有十几个乃至几十个ES索引字段，或者还要考虑代码、SQL性能以及业务逻辑，组装数据这个工作本身就已经让人头秃了，更别说可能还有业务的逻辑要处理了。

由于携程使用ES的业务非常多，迫切需要一个简单易用的框架或者工具完成这个工作，以便大家从繁琐重复的