总结起来有四种解析方式:DOM解析,SAX解析,还有另外两种需要导入第三方的jar包才可以,DOM4J解析和JDOM解析。
1、DOM解析:
解析之前我觉得有必要说一说在com.w3c这个包里面常用的节点类型做一些说明:
常用的有Element、Attribute、Text三种类型,每种类型的参数以及常用方法都在上表中,可以看见Element的getNodeValueI()函数返回值为NULL,所以我们在直接对Element对象进行解析的时候不能用getNodeValue()方法来获取内容。Element标签里面的内容也被当成了类型为Text的子元素,用getFirstChild()来取得;也可以用getContentText()来获取,仅限于元素节点里面没有子节点的时候使用;
代码如下:
import java.io.IOException;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NamedNodeMap;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;
public class DOMTest {
//用DOM方式来解析XML文件
public static void main(String[] args) {
//创建一个DocumentBuilderFactory对象
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
try {
DocumentBuilder db = dbf.newDocumentBuilder(); //创建一个DocumentBuilder对象
Document document = db.parse("book.xml"); //通过DocumentBuilder的parse方法加载book.xml文件
NodeList bookList = document.getElementsByTagName("book");
System.out.println("一共有" + bookList.getLength()+"本书:");
for(int i=0;i<bookList.getLength();i++){
//不知道节点到底有多少个属性的时候就用for循环遍历
Node book = bookList.item(i); //新建一个node对象来标志bookList里面的每一个node
NamedNodeMap attr = book.getAttributes(); //用NamedNodeMap集合来存储节点的属性值
System.out.println("第"+(i+1)+"本书有"+ attr.getLength() + "个属性");
for(int j=0;j<attr.getLength();j++){
System.out.print("属性名:"+attr.item(j).getNodeName());//通过item索引然后getNodeName方法获取值
System.out.println("====属性值:"+attr.item(j).getNodeValue());//通过item索引然后getNodeValue方法获取值
}
//知道节点的属性个数和属性名的话就用Element对象来直接获取
/*Element attr = (Element) bookList.item(i); //将bookList元素强制内性转换为Element
String id = attr.getAttribute("id"); //用Element的getAttribute方法获取属性值
System.out.println("属性id的值为:"+id);*/
//解析book节点的子节点
NodeList childList=book.getChildNodes();
System.out.println(childList.getLength());//空白和换行也被看成TextNode,所以一共有9个元素
for(int k=0;k<childList.getLength();k++){
if(childList.item(k).getNodeType()==Node.ELEMENT_NODE){//通过判断是否为Element类型,过滤掉里面的Text内容
System.out.println(childList.item(k).getNodeName()); //获取子节点的名字
//这里需要注意,xml里面子标签的内容也被当成字标签的子元素,类型通常为Text
System.out.println(childList.item(k).getFirstChild().getNodeValue());
System.out.println(childList.item(k).getTextContent());//当元素节点没有子元素的时候可以这样来直接获取
}
}
}
} catch (ParserConfigurationException e) {
e.printStackTrace();
}catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
要对xml文件中的数据结构也进行存储的话,就根据xml中的内容组织形式来定义响应的类,获取到内容的时候进行存储。