使用SAX2的DefaultHandler遇到的一个问题

         XML Document会一次性全部加在整个XML文档并在内存中生成一棵DOM树,然后可以很方便的处理树中的每一个节点。而 SAX是逐渐读取XML片断,然后通过回调事件来处理XML。开始用SAX可能会觉得比Document来的麻烦,当然一般的操作也的确比较繁锁。但是在处理大的XML文档的时候就非得用SAX不可了。用SAX可能容易忽略characters这个回调方法的一点细节,那就是这个方法不能保证一次会返回整个文本块。例如
    <line>i like my girlfriend, feifei</line>
在用SAX处理的过程中,DefaultHandler中的处理结果可能是这样的:
                               startElement : line
                               characters: i like my girl
                               characters:friend, feifei
                               endElement:line
这个时候如果认为SAX为一次性通过characters回调事件返回整个文本块“ i like my girlfriend, feifei” 就很容易犯错误了。这个是在昨晚在一本SAX2的书上看到的。
        在实际项目当中,利用SAX将xml数据影射到关系数据库当中。在提取xml数据的时候就出现了让人无法想象的错误。
   <line1>422</line1>  
    <line2>2</line2>      
    <line3>4202</line3>
解析过程中,每次回调characters就把字符串值作为一个列的值。422和2能够在一次characters回调事件中返回,但是4202那个值不知道为什么回通过连续两次characters事件返回,先返回42,然后02,结果我先把42赋给line3列,然后又把02赋给line3列。最后line3的值就是02了,对应到数据库中的int就成了2。解决方法当然就是在给列赋值之前先检查列是否已经被赋过值了,没有的话直接赋值,有的话就拼接起来。当然最为理想的方式,当然是在characters回调事件中将字符串存在buffer(如StringBuilder)当中,在确认endElement的时候再返回该元素的字符串,同时清空buffer。
        唉,这个问题让我折腾一个晚上百思不得其解。我想这应该算是SAX的一个bug。但是有人在书上居然那么正式的提出,好像是应该这样处理的一样。不理解SAX开发人员的想法。反正自己注意就是了。
      
         

<script type="text/javascript"> </script> <script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> </script>
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值