优化大批量数据写入单个文件时的内存占用问题

优化大批量数据写入单个文件时的内存占用问题

问题描述:在生成文件时内存占用率过高

原因:单次查询到的百万条数据存在的一个list数组中,单线程操作,内存高的原因也就是这list数组

测试代码如下:
耗时44007ms

	@Test
	public void testBatchWrite() throws IOException, InterruptedException {
		long start = System.currentTimeMillis();
		final List<Yddz> yddzs = yddzDao.selectYDDZ();
		File file = new File("F:\\桌面\\testBatchWrite.txt");
		final String YKT_SPLIT = ",";
		final List<String> lines = new ArrayList<>();
		for (Yddz r : yddzs) {
			StringBuffer line = new StringBuffer();
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getEnd_date_s()) ? "" : r.getEnd_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getMerchant_name()) ? "" : r.getMerchant_name()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getEnd_date_str()) ? "" : r.getEnd_date_str()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getEnd_date_s()) ? "" : r.getEnd_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getMerchant_name()) ? "" : r.getMerchant_name()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getEnd_date_str()) ? "" : r.getEnd_date_str()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
			lines.add(line.toString());
		}
		FileUtils.writeLines(file, "UTF-8", lines, "\n");
		System.out.println("完成时间:"+(System.currentTimeMillis()-start));
	}

以下是用93万条数据做的测试数据

在这里插入图片描述

优化操作:使用多线程将数据分批次读取,每个线程取相应的数据写入临时list后直接写入文件,这样可以避免一次性将所有数据写入一个list之后操作。在操作文件的时候可以不用加锁可以多线程写入,直接追加文件只要保证数据一致即可。

修改后的代码如下:
耗时26310ms

	@Test
	public void batchWriteTest2() throws InterruptedException {
		final String YKT_SPLIT = ",";
		long start = System.currentTimeMillis();
		if (new File("F:\\桌面\\testBatchWrite2.txt").exists()){
			new File("F:\\桌面\\testBatchWrite2.txt").delete();
		}
		final File file = new File("F:\\桌面\\testBatchWrite2.txt");
		List<String> productIds = yddzDao.selectProductId();
		final CountDownLatch count = new CountDownLatch(productIds.size());
		for (final String productId : productIds) {
			batchWriteExecutor.execute(new Runnable() {
				List<String> lines2 = new ArrayList<>();
				@Override
				public void run() {
					List<Yddz> yddzs1 = yddzDao.selectYDDZByProductId(productId);
					for (Yddz r : yddzs1) {
						StringBuffer line = new StringBuffer();
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getEnd_date_s()) ? "" : r.getEnd_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getMerchant_name()) ? "" : r.getMerchant_name()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getEnd_date_str()) ? "" : r.getEnd_date_str()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getEnd_date_s()) ? "" : r.getEnd_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getMerchant_name()) ? "" : r.getMerchant_name()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getEnd_date_str()) ? "" : r.getEnd_date_str()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						line.append(StringUtils.isEmpty(r.getBegin_date_s()) ? "" : r.getBegin_date_s()).append(YKT_SPLIT);
						lines2.add(line.toString());
					}
					try {
						FileUtils.writeLines(file, "UTF-8", lines2, "\n",true);
					} catch (IOException e) {
						e.printStackTrace();
						count.countDown();
					}
					count.countDown();
				}
			});
		}
		count.await();
		System.out.println("完成时间:"+(System.currentTimeMillis()-start)+"ms");
	}

在这里插入图片描述

以上可以看出改方案线程数增多了,但内存峰值相应的减少了大概300~350多M,并且执行时间提升了百分之40。虽然优化的效果总体上不是很明显吧,在此仅提供一种思路,因为这种情况数据分批的是否均匀也是一个问题,此处分批的数据不够均匀所以可能某些线程的list数据依旧大。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
解决Python openpyxl写入大量数据速度慢的问题,可以考虑以下几种方法: 1. 使用最新版本的openpyxl库:确保将openpyxl库更新到最新版本,因为每个新版本通常都会优化性能并修复一些已知的问题。 2. 使用write_only模式:使用openpyxl中的write_only模式,而不是默认的read_write模式,可以提高写入大量数据的速度。write_only模式忽略了对已存在的单元格内容的读取和修改,仅仅将新数据追加到文件中。 3. 批量写入数据:将要写入的大量数据分批写入,而不是一次性写入。可以将数据分成多个小的数据集,每个数据写入一次,这样可以减少写入间和内存占用。 4. 使用pandas库:openpyxl并不是最高效的处理大量数据的库,因此可以考虑使用pandas库。pandas提供了更高效的数据处理和写入方法,可以将数据转换为pandas的DataFrame对象,然后使用其to_excel方法写入数据。 5. 使用多线程或异步写入:对于需要同处理多个数据集的情况,可以使用多线程或异步编程技术,将写入操作分配给多个线程或任务并行处理,以提高写入大量数据的速度。 6. 禁用自动调整列宽和行高:openpyxl在写入数据会自动调整列宽和行高,但这会导致写入速度较慢。可以禁用该功能,以加快写入速度。 7. 使用其他库:如果openpyxl无法满足需求,可以考虑使用其他可以更快写入大量数据的库,如xlrd、xlwt、xlwings等。 通过以上方法,可以有效地加快Python openpyxl写入大量数据的速度,提高程序的效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值