之前翻译过 elastic 官方的一篇文章,主题是 logstash 如何实现关系型数据和 elasticsearch 之间的数据同步,地址如下。这里面有一段已经谈到了删除同步的问题。波罗学:ES 译文之使用 Logstash 实现关系型数据库与 ElasticSearch 之间的数据同步zhuanlan.zhihu.com
如果一个文档从 MySQL 中删除,该操作并不会同步到 ElasticSearch 中。列举几个我们可以考虑的方案。
MySQL 中的记录可通过包含 is_deleted 字段以表明该条记录是否有效。一旦发生更新,is_deleted 也会同步更新到 ElasticSearch 中。如果通过这种方式,在执行 MySQL 或 ElasticSearch 查询时,重写查询语句来过滤掉 is_deleted 为 true 的记录。同时,可以通过一些后台进程将 MySQL 和 ElasticSearch 中的这些文档删除。
另一个可选方案是,应用系统负责 MySQL 和 ElasticSearch 中数据的删除,即应用系统在删除 MySQL 中数据,同时负责也删除 ElasticSearch 中相应的文档。这个就会到程序层面的开发工作。
再谈一种方案,脱离 logstash 来谈这个问题。
可以通过 mysql 的 binlog 实现数据库中的得事件(增加、更新、删除)同步,任何事件实时同步到 Elasticsearch。这个相对较复杂了。但好在已经有了开源组件可以用,即阿里的 canal。不过,我个人认为,项目不大,且实时性要求不高,还是用 logstash 比较简单省心。canal 在单表时,还比较简单,如果涉及多表,也不方便,根据需求会有不定量的的开发工作。
最后,要依据场景选择合适的方案。把它们进行适时地结合,实时性要求高,用 canal 实现,一般场景,logstash 即可,即使是有题主提的删除,也不建议使用 canal,而是用前面提到的几个思路。有能力的话,其实可以针对这两种方案设计一个数据同步框架,以后只要加个配置即可完成。