背景:小方需要将脱敏后的生产数据拉下来用于验证数据统计问题,先导出了csv文件,在使用DBeaver导入测试库的时候出现了问题(小方是新手,没有其他的方式可以使用,内外网访问有较严格的控制)
问题1.数据比较多,大概300w+,csv文件单个最大150M
解决:拆分CSV 使用java方式
public static void splitCSV(String inputFile, String outputDirectory, int splitSize) throws IOException {
File input = new File(inputFile);
File dir = new File(outputDirectory);
if (!dir.exists()) {
dir.mkdirs();
}
BufferedReader br = new BufferedReader(new FileReader(input));
String line;
int count = 0;
File output = null;
BufferedWriter bw = null;
while ((line = br.readLine()) != null) {
if (count % splitSize == 0) {
if (bw != null) {
bw.close();
}
output = new File(outputDirectory, "part-" + (count / splitSize) + ".csv");
bw = new BufferedWriter(new FileWriter(output));
}
bw.write(line);
bw.newLine();
count++;
}
if (bw != null) {
bw.close();
}
br.close();
}
问题2.数据库是UTF-8的编码,导入库后查出来中文是乱码
解决:使用notepad++类似工具打开csv文件后,另存为指定格式。
问题3.数据导入的时候异常错误导致中断,提示错误信息有限
解决:DBeaver中只能看到大概的java报错,我采取的使用中间表,原数据的id单独保存,采用倒查模式,看最后倒入的一条的id,定位后去检查时最后一条的问题还是未导入的那一条导致的问题,修整数据。
ps:发现有转义符导致数据未封口,引号不规范,保存的文本中有提前导致字符串被截取 等等问题;DBeaver能用高版本的就用高版本的,支持比较完善,比如这种导入任务可以保存,不用每次都去新建任务,同时报错信息较明确
问题4.如何快速找到异常的数据
解决:使用中间表,将源数据的id原样迁移,这样通过找到每次报错时,最后一条成功入库的数据的id,再使用notepa类工具(千万不要用办公软件,超级慢,而且会格式化显示,干扰判断)。实践发现一般是最后保存成功的那条数据没有正确结束,导致把后面n行的数据当做一个字段导入,如果n较小,会提示空指针,如果n较大或者里面的字符比较多,会提示数据超长。导入中间表后再迁移到目标表会比较快,同时DBeaver导入CSV支持每次导入前truncate表,如果使用中间表,每次的迁移耗时会相交直接使用目标表速度快。
综述:下次谁他么接这种活儿谁是狗,旺!旺!旺!
后记:测试环境访问导入的数据时会出现很多JSON解析错误,CSV的缺点可能是没办法很好处理这种json数据,字符串转义不完整,导致数据无法被解析,后续还是进行了批量替换才正常,如果有其他更好的方式,不建议使用csv导出此类数据。