java批量导入数据到es中出现数据重复问题解决方案

今天在网上找了一个批量数据导入到es中的java代码,代码主要逻辑如下:

// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
		"D:\\test\\test.txt"));
String json = null;
int count = 0;
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk();
while ((json = br.readLine()) != null) {
	bulkRequest.add(client.prepareIndex("test", "all")
			.setSource(json));
	// 每一千条提交一次
	if (count % 1000 == 0) {
		bulkRequest.execute().actionGet();
		System.out.println("提交了:" + count);
	}
	count++;
}
bulkRequest.execute().actionGet();
System.out.println("插入完毕");
br.close();
运行后发现一个问题,我100多万条的数据,导入到es中怎么生成了1000多万条,而且还是在没有完全导入的情况下

然后用小批量数据导入到es,再把这些数据导出来,发现有好多重复的数据

为什么会重复呢,原因是在每一千条提交一次代码这块,第一次一千条提交了,并没有把bulkRequest置空,所以第二次提交的时候,会提交两千条,包括第一次已经提交的一千条,然后我们自己也没有设置_id,所以es会自动给数据生成一个_id,即使是重复的数据,搞清楚了原因,下面来说解决方法,主要有两种:

第一种就是在提交了一千条后,对bulkRequest进行重置,因为bulkRequest并没有重置的方法,所以可以新建一个bulkRequest,类似于重置,具体代码如下:

// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
		"D:\\test\\test.txt"));
String json = null;
int count = 0;
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk();
while ((json = br.readLine()) != null) {
	bulkRequest.add(client.prepareIndex("test", "all")
			.setSource(json));
	// 每一千条提交一次
	if (count % 1000 == 0) {
		bulkRequest.execute().actionGet();
		//此处新建一个bulkRequest,类似于重置效果
		bulkRequest = client.prepareBulk();
		System.out.println("提交了:" + count);
	}
	count++;
}
bulkRequest.execute().actionGet();
System.out.println("插入完毕");
br.close();
第二种就是自己设置_id,确保每一条数据只有一个_id,这样的话,即使数据重复了,因为_id是一样的,所以es会进行更新,这样的话并没有从根源上解决数据重复的问题,只是重复数据会更新,这样的话效率会慢,具体代码如下:

// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
		"D:\\test\\test.txt"));
String json = null;
int count = 0;
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk();
while ((json = br.readLine()) != null) {
    //设置_id为count
	bulkRequest.add(client.prepareIndex("test", "all",
	                   String.valueOf(count)).setSource(json));
	// 每一千条提交一次
	if (count % 1000 == 0) {
		bulkRequest.execute().actionGet();
		//此处新建一个bulkRequest,类似于重置效果
		System.out.println("提交了:" + count);
	}
	count++;
}
bulkRequest.execute().actionGet();
System.out.println("插入完毕");
br.close();

建议使用第一种方法,效率会快很多。



  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
利用Java多线程技术导入数据Elasticsearch的方法步骤如下: 步骤1:引入必要的依赖 首先,需要在项目引入ElasticsearchJava客户端依赖,可以通过Maven或Gradle进行引入。 步骤2:创建Elasticsearch客户端 使用ElasticsearchJava客户端创建与Elasticsearch服务器的连接。可以使用TransportClient或RestClient来进行连接。 步骤3:创建数据导入任务 创建一个数据导入任务类,实现Runnable接口,并重写run()方法。该任务类负责将数据导入Elasticsearch。根据需求,可以将数据分批导入,也可以按照一定规则并发导入。 步骤4:创建线程池 创建一个线程池,用于管理多个线程执行数据导入任务。可以使用Java自带的ThreadPoolExecutor类来创建线程池,并根据需求设置线程池的大小、任务队列等相关参数。 步骤5:提交任务到线程池 将数据导入任务提交到线程池执行。可以使用execute()方法提交任务,也可以使用submit()方法提交任务并获取返回结果。 步骤6:等待任务完成 使用CountDownLatch或其他同步工具等待所有的数据导入任务完成。可以通过调用shutdown()方法关闭线程池,并在主线程调用awaitTermination()方法等待所有任务执行完成。 步骤7:关闭Elasticsearch客户端 在数据导入完成后,关闭与Elasticsearch服务器的连接,释放资源。 步骤8:处理导入结果 根据需要,可以在任务类添加相应的处理逻辑,比如统计导入数据的成功和失败数量,打印异常信息等。 总结: 利用Java多线程技术导入数据Elasticsearch的主要步骤包括引入依赖、创建Elasticsearch客户端、创建数据导入任务、创建线程池、提交任务到线程池、等待任务完成、关闭客户端和处理导入结果。根据具体需求,可以灵活调整以上步骤的顺序和细节。同时,还应注意线程安全和异常处理等问题,以保证数据导入的正确性和可靠性。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值