使用xpath提取xml中的节点信息

最新推荐文章于 2023-10-10 11:33:33 发布

babpap

最新推荐文章于 2023-10-10 11:33:33 发布

阅读量722

点赞数

分类专栏： JAVASE 文章标签： XML Java 编程 IBM ASP

JAVASE 专栏收录该内容

11 篇文章 0 订阅

订阅专栏


<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
	<book category="COOKING">
		<title lang="en">Everyday Italian</title>
		<author>Giada De Laurentiis</author>
		<year>2005</year>
		<price>30.00</price>
	</book>
	<book category="CHILDREN">
		<title lang="en">Harry Potter</title>
		<author>J K. Rowling</author>
		<year>2005</year>
		<price>29.99</price>
	</book>
	<book category="WEB">
		<title lang="en">XQuery Kick Start</title>
		<author>James McGovern</author>
		<author>Per Bothner</author>
		<author>Kurt Cagle</author>
		<author>James Linn</author>
		<author>Vaidyanathan Nagarajan</author>
		<year>2003</year>
		<price>49.99</price>
	</book>
	<book category="WEB">
		<title lang="zh">Learning XML</title>
		<author>Erik T. Ray</author>
		<year>2003</year>
		<price>39.95</price>
	</book>
</bookstore>

提取xml文件中节点信息的java代码：


/**
 * "/"表示绝对路径 <br/>
 * "/AA" 所有根节点AA<br/>
 * "/AA/BB" 所有根节点下的所有BB节点<br/>
 * 
 * "//" 表示相对路径<br/>
 * "//BBB" 表示所有的名字为BBB的节点<br/>
 * "//DDD/BBB" 表示所有父节点为DDD的BBB节点<br/>
 * 
 * "*" 表示选择所有由星号之前的路径所定位的元素<br/>
 * "/AAA/CCC/DDD/*" 选择所有路径依附于/AAA/CCC/DDD的元素<br/>
 * "//*" 选择所有元素
 * 
 * "/AAA/BBB[1]" 选择AAA的第一个BBB子元素<br/>
 * "/AAA/BBB[last()]" 选择AAA的最后一个BBB子元素<br/>
 * 
 * "//@id" 选择所有的id属性<br/>
 * "//BBB[@id]" 选择有id属性的BBB元素<br/>
 * "//BBB[@name]" 选择有name属性的BBB元素<br/>
 * "//BBB[@*]" 选择有任意属性的BBB元素<br/>
 * "//BBB[not(@*)]" 选择没有属性的BBB元素<br/>
 * 
 * "//BBB[@id='b1']" 选择含有属性id且其值为'b1'的BBB元素<br/>
 * "//BBB[@name='bbb']" 选择含有属性name且其值为'bbb'的BBB元素<br/>
 * "//BBB[normalize-space(@name)='bbb']"
 * 选择含有属性name且其值(在用normalize-space函数去掉前后空格后)为'bbb'的BBB元素<br/>
 * 
 * "//*[count(BBB)=2]" 选择含有2个BBB子元素的元素<br/>
 * "//*[count(*)=2]" 选择含有2个子元素的元素<br/>
 * "//*[name()='BBB']" 选择所有名称为BBB的元素(这里等价于//BBB)<br/>
 * "//*[starts-with(name(),'B')]" 选择所有名称以"B"起始的元素<br/>
 * "//*[contains(name(),'C')]" 选择所有名称包含"C"的元素<br/>
 * 
 * "//CCC | //BBB" 选择所有的CCC和BBB元素<br/>
 * "/AAA/EEE | //BBB" 选择所有的BBB元素和所有是AAA的子元素的EEE元素<br/>
 */

InputSource inputSource = new InputSource(new FileInputStream("test.xml"));
XPathFactory factory = XPathFactory.newInstance();
XPath xPath = factory.newXPath();
XPathExpression expression = xPath.compile("//book/title[@lang=\"en\"]");
NodeList list = (NodeList) expression.evaluate(inputSource, XPathConstants.NODESET);
for (int i = 0; i < list.getLength(); i++) {
	Node node = list.item(i);
	System.out.println(node.getNodeName());
}

解析的步骤如下:
1、获取xml文件


InputSource inputSource = new InputSource(new FileInputStream("test.xml"));
//或者使用DOM解析
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse("test.xml");

2、接下来创建 XPathFactory：


XPathFactory factory = XPathFactory.newInstance();

3、然后使用这个工厂创建 XPath 对象：


XPath xPath = factory.newXPath();

4、使用XPath 对象编译 XPath 表达式：


XPathExpression expression = xPath.compile("//book/title[@lang=\"en\"]");

5、使用表达式的evaluate()，并处理结果：


NodeList list = (NodeList) expression.evaluate(inputSource, XPathConstants.NODESET);
for (int i = 0; i < list.getLength(); i++) {
	Node node = list.item(i);
	System.out.println(node.getNodeName());
}

evaluate() 方法被声明为返回 Object。实际返回什么依赖于 XPath 表达式的结果以及要求的类型。一般来说，XPath 的
number 映射为 java.lang.Double
string 映射为 java.lang.String
boolean 映射为 java.lang.Boolean
node-set 映射为 org.w3c.dom.NodeList

在 Java 中计算 XPath 表达式时，第二个参数指定需要的返回类型。有五种可能，都在 javax.xml.xpath.XPathConstants 类中命名了常量：
XPathConstants.NODESET
XPathConstants.BOOLEAN
XPathConstants.NUMBER
XPathConstants.STRING
XPathConstants.NODE

在使用xpath解析xml的时候还有很多需要注意的地方，若 XML 文档中的元素在名称空间中，查询该文档的 XPath 表达式必须使用相同的名称空间。XPath 表达式不一定要使用相同的前缀，只需要名称空间 URI 相同即可。事实上，如果 XML 文档使用默认名称空间，那么尽管目标文档没有使用前缀，XPath 表达式也必须使用前缀。另外我们也还可以在java中扩展xpath的函数。更多信息请参看下面的参考资料。

参考资料：
[url=http://www.ibm.com/developerworks/cn/xml/x-javaxpathapi.html]Java 语言的 XPath API[/url]
[url=http://www.ibm.com/developerworks/library/x-wxxm35.html?S_TACT=105AGX52&S_CMP=cn-a-x]Working XML: Get started with XPath 2.0[/url]
[url=http://www.w3school.com.cn/xpath/index.asp]XPath 教程[/url]