大文件按行数拆分成多个文件,大文件获取总行数
详情看代码注释
package com;
import java.io.*;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.stream.Collectors;
/**
* 大文件按行数拆分,大文件获取总行数
*/
public class CopyFile {
//被分割的大文件
private static String fileName = "H:\\tmp\\partion2\\DAAS_T_AS_GC_UNIT_ASSIGNSTATE.sql";
//分割后的小文件目录
private static String PATH = "H:\\tmp\\partion2";
//每个小文件的行数
private static int SPLITSISE = 1000000;
//每次读取的行数
private static int READLINENUM = 10000;
// 使用示例
public static void main(String[] args) throws Exception {
// 目标文件
String targetFile = fileName;
// 存放的目录
String saveDir = PATH;
// 自定义的生成文件前缀名
String saveFileName = "insert";
// 生成文件格式的后缀
String suffix = "sql";
// 自定义 一个文件的行数,这里是 100000 行 一个文件
long splitSize = SPLITSISE;
System.out.println(getFileLineNum2(targetFile));
splitFile2(targetFile, saveDir, saveFileName, suffix, splitSize);
}
//获取文件行数
public static long getFileLineNum(String filePath) {
try {
return Files.lines(Paths.get(filePath)).count();
} catch (IOException e) {
return -1;
}
}
//获取文件行数,该方法执行较快
public static int getFileLineNum2(String filePath) {
try (LineNumberReader lineNumberReader = new LineNumberReader(new FileReader(filePath))){
lineNumberReader.skip(Long.MAX_VALUE);
int lineNumber = lineNumberReader.getLineNumber();
return lineNumber + 1;//实际上是读取换行符数量 , 所以需要+1
} catch (IOException e) {
return -1;
}
}
/**
* 一次写入多(READLINENUM)行
* @param targetFile 目标文件路径
* @param saveDir 存放的目录
* @param saveFileName 生成文件的前缀名
* @param suffix 生成文件的后缀名
* @param splitSize 每一个文件 多少行数据
*/
public static void splitFile2(String targetFile, String saveDir, String saveFileName, String suffix, long splitSize) throws Exception {
if (!saveDir.endsWith("\\")) {
saveDir += File.separator;
}
File file = new File(targetFile);
if (!file.exists()) {
throw new Exception("目标路径:[ " + targetFile + " ] 有错误...");
}
// 输入缓冲流
BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(file), "UTF-8"));
String str = "";
System.out.println("开始写入......请等待......");
long startTime = System.currentTimeMillis();
// 输出缓冲流
BufferedWriter writer = null;
int i = 0;
int total = 0;
while ((str = reader.lines().limit(READLINENUM).collect(Collectors.joining(System.lineSeparator()))) != null && !"".equals(str)) {
total += 1000;
System.out.println("正在读取第" + total + "行");
// System.out.println("str:" + str);
String fileName = saveDir + saveFileName + i * READLINENUM / splitSize + "." + suffix;
System.out.println("page :" + i * READLINENUM / splitSize);
// 使用 BufferedWriter 如果 不进行 flush 或者 close 写入不了内容。
writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fileName, true)));
writer.write(str + System.lineSeparator());
writer.flush();
i++;
}
writer.close();
reader.close();
System.out.println("写入完毕,耗时:" + (System.currentTimeMillis() - startTime) / 1000 + " s");
}
/**
* 一行一行写,速度慢
* @param targetFile 目标文件路径
* @param saveDir 存放的目录
* @param saveFileName 生成文件的前缀名
* @param suffix 生成文件的后缀名
* @param splitSize 每一个文件 多少行数据
*/
public static void splitFile(String targetFile, String saveDir, String saveFileName, String suffix, long splitSize) throws Exception {
if (!saveDir.endsWith("\\")) {
saveDir += File.separator;
}
File file = new File(targetFile);
if (!file.exists()) {
throw new Exception("目标路径:[ " + targetFile + " ] 有错误...");
}
// 输入缓冲流
BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(file), "UTF-8"));
String str = null;
// 行数
long len = 0;
System.out.println("开始写入......请等待......");
long startTime = System.currentTimeMillis();
// 输出缓冲流
BufferedWriter writer = null;
while ((str = reader.readLine()) != null) {
// 当前 行 文件
long txtSize = (len / splitSize) + 1;
String fileName = saveDir + saveFileName + txtSize + "." + suffix;
// 使用 BufferedWriter 如果 不进行 flush 或者 close 写入不了内容。
writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fileName, true)));
writer.write(str + System.lineSeparator());
writer.flush();
len++;
}
writer.close();
reader.close();
System.out.println("写入完毕,一共 " + len + " 记录,耗时:" + (System.currentTimeMillis() - startTime) / 1000 + " s");
}
}