在实际工作中,遇到了对方发给我方的 XML 文件内容都处于一行中。
初始思路:
将文件中的内容读取到系统中,使用 dom4j 的 asXML() 方法将文件中的内容变为字符串。
Document fromXml=reader.read(new FileInputStream(new File(xmlPath)));
String asXML = fromXml.asXML();
然后将字符串按 XML 格式进行换行处理。
最后对处理后的字符串进行解析。
问题:
但是在最后解析的过程中,发现 XML 中有 CDATA 标签
而 dom4j 解析字符串的时候,代码无法识别 CDATA 标签。所以一直吧他当子标签处理。
解决:
最终,使用 文件读取的方式。将处理好的字符串,生成到新的 XML 文件中,并且规定好格式。并且对这个新 XML 文件进行解析,获取系统需要的数据。
Writer writer = null;
BufferedWriter bw = null;
String[] split = asXML.split("><");
try {
writer = new FileWriter(newXmlPath);
bw = new BufferedWriter(writer);
for (int i = 0; i < split.length; i++) {
if (i == split.length-1) {
bw.write(split[i]);
}else if(split[i+1].contains("![CDATA[")){
bw.append(split[i]+"><");
}else if(split[i].contains("![CDATA[")){
bw.append(split[i]+"><");
}else {
bw.write(split[i]+">\n<");
}
}
bw.flush();
} finally {
bw.close();
}
注意:
错误格式:
<a note="note"><![CDATA[a.rar]]>
</a>
<a note="note">
<![CDATA[a.rar]]>
</a>
正确格式: (必须处于一行才可以解析出 CDATA 中的数据)
<a note="note"><![CDATA[a.rar]]></a>