ElasticSearch千万级数据同步方案

最新推荐文章于 2024-08-22 22:48:15 发布

置顶

战争o

最新推荐文章于 2024-08-22 22:48:15 发布

阅读量4.1k

点赞数 3

分类专栏： ElasticSearch 文章标签： ElasticSearch 千万同步优化 JAVA

本文链接：https://blog.csdn.net/baidu_38299797/article/details/101366284

版权

本文探讨了如何高效地将千万级数据同步到ElasticSearch中。作者指出，IndexResponse和BulkProcessor等常见方法在处理大量数据时效率不高。通过调研，发现使用curl HTTP传输文件的方式更为合适，但文件大小受限。解决方案是利用HDFS处理大数据，通过并发读写和队列机制，异步读取存储文件，将其内容分词处理并同步到ElasticSearch，实现了性能的提升。

摘要由CSDN通过智能技术生成

（原创）针对于将数据同步到ES中，有HttpHost、BulkProcessor等方式，怎么才能更高效的加载数据
在我开发测试过程中，一直觉得这些方式效率都不是很好
1、IndexResponse的方式，经过测试（Linux环境）一次时间开销在时间在200ms-300ms左右

  IndexResponse response = client.prepareIndex("stu", "doc","1")
	    	                .setSource(
	    	                        XContentFactory.jsonBuilder()
	    	                                .startObject()
	    	                                .field("stu_id", "001")
	    	                                .field("stu_name", "apple1")
	    	                                .