1. 问题描述
4月29日上午,测试同学通过压测工具测试"网关->业务层->分析服务"链路,QPS 200。
测试开始不久后,CloudMonitor告警"分析服务"服务器磁盘占用超过80%,经过排查,确定告警根原因是java.nio.file.Files lines方法使用不当引发的文件句柄泄露,临时文件被删除后磁盘空间未释放导致。
2. 排查步骤
-
测试开始后10分钟左右,CloudMonitor告警"分析服务"服务器磁盘占用超过80%,登录服务器删除部分日志后,磁盘占用降低到70%,告警解除;
-
10分钟后,CloudMonitor告警"分析服务"服务器磁盘占用超过80%,登录服务器查看日志目录,发现日志目录占用磁盘空间不足1GB,判断是其他目录占用了磁盘空间;
-
执行du -h -s * 检查主要目录后,发现所有目录占用空间远小于df -h命令返回的磁盘总使用空间,判断是文件句柄泄露导致文件虽被删除但磁盘空间未释放;
-
执行lsof | grep deleted 列出所有已打开且已删除的文件,果然返回大量临时文件;
-
重启JAVA进程后,磁盘空间占有率降至50%以下,问题原因确定为JAVA代码导致的文件句柄泄露。
3. 代码检查
通常的,文件句柄泄露是由于BufferedWriter BufferedReader 之类的文件读写操作类没有关闭导致,因此重点检查了相关代码,但发现开发同学相关操作时均使用了try-with-resources优化关闭资源,并不会导致文件句柄泄露。
public static void writeFileByFullPath(String filename, List<String> lines) {
try (FileWriter fw = new FileWriter(filename, true)) {
try(BufferedWriter bw = new BufferedWriter(fw)) {
for (String line : lines) {
bw.write(line);
bw.newLine();
}
bw.flush();
}
}
}
逐行审查代码后发现,如下代码:
long total = java.nio.file.Files.lines(filePath).count();
java.nio.file.Files.lines是JDK8加入的方法,能够帮助开发者更加简单的处理文本文件,类似于Groory中的
def list = new File(filePath).collect { it }
Files.lines源代码如下:
public static Stream<String> lines(Path path) throws IOException {
return lines(path, StandardCharsets.UTF_8);
}
public static Stream<String> lines(Path path, Charset cs) throws IOException {
BufferedReader br = Files.newBufferedReader(path, cs);
try {
// 添加asUncheckedRunnable到Stream的关闭回调
// asUncheckedRunnable中关闭br
return br.lines().onClose(asUncheckedRunnable(br));
} catch (Error|RuntimeException e) {
try {
br.close();
} catch (IOException ex) {
try {
e.addSuppressed(ex);
} catch (Throwable ignore) {}
}
throw e;
}
}
private static Runnable asUncheckedRunnable(Closeable c) {
return () -> {
try {
c.close();
} catch (IOException e) {
throw new UncheckedIOException(e);
}
};
}
3. 问题修复
将问题代码修改为如下,并发布后,问题修复。
long total = 0L;
try (Stream<String> stream = java.nio.file.Files.lines(filePath)) {
total = stream.count();
}