最近使用neko和xalan做网页信息提取,很奇怪,网页的文本中包含的&nbs;提取出来时都变成了?,经过痛苦的煎熬,原来neko能够自动对这种类型的HTML字符实体进行分析,但是资源文件却不包含对&nbs;的定义。最后我在nekohtml.jar中找到了它使用的资源文件HTMLlat1.properties,在其中加入了一行:
nbsp=/u00a0,问题就解决了。
原来这么简单,害我郁闷了很长时间。
nbsp=/u00a0,问题就解决了。
原来这么简单,害我郁闷了很长时间。