提取html内容放入xml文件时空格问题

由于项目的需要,将网站上的信息抓取下来,提取出想要的信息,然后保存在xml文件里,再将xml文件上传一服务器,这个过程中,我想将原来网页上的信息的换行和空格标签保存在xml文件里去,但是直接将<br>标签放在xml文件里,显然不行,因为在xml文件里会当作xml标签,所以我就将<替换为&lt;而>就替换为&gt;这样就可以与xml的标签区分开来,但是空格&nbsp;放在xml文件里竟然有问题,xml解析它时会抛出如下异常:

org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared. 


 

后来看了下面的文件后,就将&nbsp;改为&#160; 这样可以让xml解析器解析正确,在myeclipse下调试,看到的串显示也是正确的,不过用System.out.println()打印出来会在有&#160;的地方显示三个问号,我再根据下面的文章,将这个串用replaceAll("\240$", "&nbsp;")方法替换回空格,再存放数据库,但是我这里不行,还是显示出三个问题,后来再查了一下,原来将&nbsp;替换为&amp;nbsp;然后写入xml文件,后面由xml解析器解析出来的就成了nbsp;也正是我想要的空格,可以直接放入数据库中去。

 

 

参考:

奇怪的编码,奇怪的显示——一个关于&nbsp;的故事

我们常常会解析html,解析html通常来说有两种方法,其一是直接对html进行解析,其二是将html转换到xml再解析。因为学习成本的关系,越来越倾向于使用后者来实现。第二种方法一个常用的工具就是:neko html parser,他将html转换到xml,又使用了Xerces2进行xml操作。 

于是问题开始了,在html中的&符号表示的一些特别意义,在xml中往往没有定义,比如今天我要讲的&nbsp; 他在html中表示non-breaking space,但是你不能用同样的方式在xml中表示,因为xml中&开头表示,可解析的实体,这个实体被DTD预先定义,而&nbsp;并没有被定义,所有如果用Xerces2来解析出现这样字符的xml文件(当然,这里假设你也没有自己预先定义),会抛出如下异常: 
org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared. 
一般给出如下的解决方案:使用&#160; 这又是什么道理呢?因为这是HTML ISO-8859-1 Reference 定义的规范,如下: 
Character Entity Number Entity Name Description 
           &#160;  &nbsp; non-breaking space 
neko html parser也这是使用的这样的方案,所以当解析这样一句html的时候: 
<td> 
    big black bear bit back the big black bug.&nbsp; 
</td> 

就bei neko html parser替换成了 

<td> 
    big black bear bit back the big black bug.&#160; 
</td> 

如果这样就完了,就不会有今天这篇文章了。 
但是替换之后,通过xml解析输出,显示的不是一个空格而是一个 ?,最要人命的地方了是这个?并不是ascii 中的063d。所以当我们通过getTextContent()方法的时候,我们得到的是: 
big black bear bit back the big black bug.? 

在实际应用中,当然需要出去这个?,于是我们打算使用replaceAll("\\?$", "")来替换掉这个?,但是你错了,你被你的眼睛骗了,这时你会发现根本不起作用你应该是用replaceAll("\240$", ""),240是160的八进制数。 

 

后记:

原来让xml不解析大小于号等xml关键字符,可以用:

 

CDATA 部分中的所有内容都会被解析器忽略。

CDATA 部分由 "<![CDATA[" 开始,由 "]]>" 结束:

详见:http://www.w3school.com.cn/xml/xml_cdata.asp

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值