java批量导入数据到es中出现数据重复问题解决方案

最新推荐文章于 2024-06-23 06:58:19 发布

叶不二

最新推荐文章于 2024-06-23 06:58:19 发布

阅读量1.5w

点赞数 3

分类专栏：大数据 Java 文章标签：解决方案 elasticsearch java

本文链接：https://blog.csdn.net/qq_29447481/article/details/77772703

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

Java

12 篇文章 0 订阅

订阅专栏

今天在网上找了一个批量数据导入到es中的java代码，代码主要逻辑如下：

// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
		"D:\\test\\test.txt"));
String json = null;
int count = 0;
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk();
while ((json = br.readLine()) != null) {
	bulkRequest.add(client.prepareIndex("test", "all")
			.setSource(json));
	// 每一千条提交一次
	if (count % 1000 == 0) {
		bulkRequest.execute().actionGet();
		System.out.println("提交了：" + count);
	}
	count++;
}
bulkRequest.execute().actionGet();
System.out.println("插入完毕");
br.close();

运行后发现一个问题，我100多万条的数据，导入到es中怎么生成了1000多万条，而且还是在没有完全导入的情况下

然后用小批量数据导入到es,再把这些数据导出来，发现有好多重复的数据

为什么会重复呢，原因是在每一千条提交一次代码这块，第一次一千条提交了，并没有把bulkRequest置空，所以第二次提交的时候，会提交两千条，包括第一次已经提交的一千条，然后我们自己也没有设置_id,所以es会自动给数据生成一个_id,即使是重复的数据，搞清楚了原因，下面来说解决方法，主要有两种：

第一种就是在提交了一千条后，对bulkRequest进行重置，因为bulkRequest并没有重置的方法，所以可以新建一个bulkRequest，类似于重置，具体代码如下：

// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
		"D:\\test\\test.txt"));
String json = null;
int count = 0;
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk();
while ((json = br.readLine()) != null) {
	bulkRequest.add(client.prepareIndex("test", "all")
			.setSource(json));
	// 每一千条提交一次
	if (count % 1000 == 0) {
		bulkRequest.execute().actionGet();
		//此处新建一个bulkRequest，类似于重置效果
		bulkRequest = client.prepareBulk();
		System.out.println("提交了：" + count);
	}
	count++;
}
bulkRequest.execute().actionGet();
System.out.println("插入完毕");
br.close();

第二种就是自己设置_id,确保每一条数据只有一个_id,这样的话，即使数据重复了，因为_id是一样的，所以es会进行更新，这样的话并没有从根源上解决数据重复的问题，只是重复数据会更新，这样的话效率会慢，具体代码如下：

// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
		"D:\\test\\test.txt"));
String json = null;
int count = 0;
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk();
while ((json = br.readLine()) != null) {
    //设置_id为count
	bulkRequest.add(client.prepareIndex("test", "all",
	                   String.valueOf(count)).setSource(json));
	// 每一千条提交一次
	if (count % 1000 == 0) {
		bulkRequest.execute().actionGet();
		//此处新建一个bulkRequest，类似于重置效果
		System.out.println("提交了：" + count);
	}
	count++;
}
bulkRequest.execute().actionGet();
System.out.println("插入完毕");
br.close();

建议使用第一种方法，效率会快很多。

叶不二

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
java批量导入数据到es中出现数据重复问题解决方案

今天在网上找了一个批量数据导入到es中的java代码，代码主要逻辑如下：// 读取要导入数据的文件BufferedReader br = new BufferedReader(new FileReader( "D:\\test\\test.txt"));String json = null;int count = 0;// 开启批量插入BulkRequestBuilder bulkR
复制链接

扫一扫

专栏目录