XML解析分三种方式
使用DOM解析XML数据
基础知识
(1)Node,每一对<></>
都代表一个节点;
(2)NodeList,拥有多个Node的Node;
(3)Element,每一个节点是一个Element
(4)Document,代表整个xml文件,是一个文档节点
例如,解析这个xml文件
<?xml version="1.0" encoding="UTF-8"?>
<book>
<person>
<first>Yang</first>
<Last>QIQI</Last>
<age>22</age>
</person>
<person>
<first>Deng</first>
<Last>RongDong</Last>
<age>23</age>
</person>
<person>
<first>Li</first>
<Last>JIANG</Last>
<age>23</age>
</person>
</book>
try {
DocumentBuilderFactory documentBuilderFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder documentBuilder = documentBuilderFactory.newDocumentBuilder();
//文档节点
Document doc = documentBuilder.parse(new File("personlist.xml"));
doc.getDocumentElement().normalize();
System.out.println("Root element of the doc is " + doc.getDocumentElement().getNodeName());
//代表每个人的节点列表
NodeList listOfPersons = doc.getElementsByTagName("person");
int totalPerson = listOfPersons.getLength();
System.out.println("total length of person:" + totalPerson);
for(int s=0; s<totalPerson; s++) {
Node PersonNode = listOfPersons.item(s);
if(PersonNode.getNodeType()==Node.ELEMENT_NODE){
Element PersonElement = (Element) PersonNode;
//姓节点
NodeList firstNameList = PersonElement.getElementsByTagName("first");
//每一个节点是一个元素
Element firstNameElement = (Element) firstNameList.item(0);
//元素的子节点就是文本节点
NodeList textFNList = firstNameElement.getChildNodes();
//文本节点的第一项为文本
System.out.println("First Name : " + textFNList.item(0).getNodeValue().trim());
//名节点
NodeList lastNameList = PersonElement.getElementsByTagName("Last");
Element lastNameElement = (Element) lastNameList.item(0);
NodeList textLNList = lastNameElement.getChildNodes();
System.out.println("Last Name : " + textLNList.item(0).getNodeValue().trim());
//年龄节点
NodeList ageList = PersonElement.getElementsByTagName("age");
Element ageElement = (Element) ageList.item(0);
NodeList textAGEList = ageElement.getChildNodes();
System.out.println("AGE : " + textAGEList.item(0).getNodeValue().trim());
}
}
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
Exception x = e.getException();
((x==null)?e:x).printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
解析HTML网页
基础知识
需要理解几个基本概念:
DOM规定,HTML文档中的每个成分都是一个节点。每个HTML标签是一个元素节点,包含在HTML元素中的文本是文本节点。每一个HTML属性是一个属性节点。注释属于注释节点。
使用SAX解析XML数据
使用PULL解析XML数据
其他还在龟速更新中