分析一个大的XML文件时用的笨招

收到一个很大的XML文件,接近2G大小。里面内容就是对象的属性和值的信息。需要从里面找出比较大的那些对象。

试过好几个工具,比如VIM、Notepad++、Edit Plus,都觉得不好用,VIM可能是缓存,打开文件没问题,内容查找也没问题,问题就是太了,找了个关键字,开始扫描,然后就进行一段时间的等待。Notepad++和EditPlus就直接打不开了。

后来一个小伙伴提供了一个思路,即通过对比标签内的行数来估算那些是大对象。比如…这么一对标签之间,如果有100行,可能是正常的,如果10000行,可能就是大对象了,那这个对象里面可能包含了很多其它标签,导致行数比较大。

有了这个思路,就可以通过一些脚本语言如Shell之类去查找这个信息。Java的文件读取也可以很快地把这个信息拿出来。比如下面这行代码,查找所在的行数,输出所在的行数及该行的内容,这样上面两个行数对比,基本可以确定那个Host的行数比较多了。可能会有多一行或少几行的问题,这个已经不影响分析了。

下面的脚本,一行一行地读取2GB的文件,该文件有3千多万行,花了16.5秒。速度还算可以。读取一次就可以了,不像VIM,每次查找,都要等上好一会。

		String msg = "<Host>";
		String filename = "bigfile.xml";
		FileReader fr = new FileReader(filename);
		BufferedReader br = new BufferedReader(fr);
		
		FileWriter fw = new FileWriter(new File("linenum.xml"));
		BufferedWriter bw = new BufferedWriter(fw);
		
		FileReader fr 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值