收到一个很大的XML文件,接近2G大小。里面内容就是对象的属性和值的信息。需要从里面找出比较大的那些对象。
试过好几个工具,比如VIM、Notepad++、Edit Plus,都觉得不好用,VIM可能是缓存,打开文件没问题,内容查找也没问题,问题就是太慢了,找了个关键字,开始扫描,然后就进行一段时间的等待。Notepad++和EditPlus就直接打不开了。
后来一个小伙伴提供了一个思路,即通过对比标签内的行数来估算那些是大对象。比如…这么一对标签之间,如果有100行,可能是正常的,如果10000行,可能就是大对象了,那这个对象里面可能包含了很多其它标签,导致行数比较大。
有了这个思路,就可以通过一些脚本语言如Shell之类去查找这个信息。Java的文件读取也可以很快地把这个信息拿出来。比如下面这行代码,查找所在的行数,输出所在的行数及该行的内容,这样上面两个行数对比,基本可以确定那个Host的行数比较多了。可能会有多一行或少几行的问题,这个已经不影响分析了。
下面的脚本,一行一行地读取2GB的文件,该文件有3千多万行,花了16.5秒。速度还算可以。读取一次就可以了,不像VIM,每次查找,都要等上好一会。
String msg = "<Host>";
String filename = "bigfile.xml";
FileReader fr = new FileReader(filename);
BufferedReader br = new BufferedReader(fr);
FileWriter fw = new FileWriter(new File("linenum.xml"));
BufferedWriter bw = new BufferedWriter(fw);
FileReader fr