XML解析
XML解析技术有哪些?
DOM - - Document Object Model ,文档对象模型,是W3C组织推荐的处理XML的一种方式 。将标记语言文档一次性加载进内存,在内存中形成dom树。操作方便,可以对文档进行CRUD操作,但是占内存。一般服务器端用DOM
SAX - - Simple API for XML ,非官方标准,几乎所有的XML解析器都支持它。逐行读取,基于事件驱动,不占内存,但只能读取,不能进行其他操作。一般移动端用SAX。
常见的解析器有哪些?
JAXP - - sun公司提供的解析器,支持dom和sax两种思想
DOM4J - - Java的XML API,类似于jdom,用于读写XML文件
Jsoup - - Java的HTML解析器,可直接解析某个URL地址、HTML文本内容,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据
PULL - - 安卓系统内置解析器,sax思想
XML解析之Jsoup
导入jar包 -> 获取Document对象 -> 获取对应的标签Element对象 -> 获取数据
Jsoup:工具类,可以解析HTML或XML文档,返回Document
//parse(File in,String charsetName):解析xml或html文件的
Document document = Jsoup.parse(new File(path),"utf-8");
//parse(String html):解析xml或html字符串
//parse(URL,int timeoutMillis):通过网络路径获取指定的html或xml文档对象
URL url = new URL("https://xxxx");
Document document = Jsoup.parse(url,10000);//10s之后超时不能解析
Document:文档对象,代表内存中的dom树
//获取Element对象
getElementById(String id) //根据id属性值获取唯一的element对象
getElementsByTag(String tagName)//根据标签名称获取元素的集合
getElementsByAtrribute(String key)//根据属性名称获取元素对象集合
getElementsByAtrributeValue(String key,String value)//根据属性名和属性值获取元素对象集合
Elements:元素Element对象的集合,相当于ArrayList< Element >集合
Element:元素Element的子元素对象
//1.获取Element对象
getElementById(String id) //根据id属性值获取唯一的element对象
getElementsByTag(String tagName)//根据标签名称获取元素的集合
getElementsByAtrribute(String key)//根据属性名称获取元素对象集合
getElementsByAtrributeValue(String key,String value)//根据属性名和属性值获取元素对象集合
//2.根据属性获取子元素对象
String attr(String key) //根据属性名获取属性值
//3.获取文本内容
String text() //获取文本内容
String html() //获取标签体的所有内容
Node:结点对象 - - Document和Element的父类
//查询id为monkey的元素
Document document = Jsoup.parse(new File(path),"utf-8");
Elements elements1 = document.select("#monkey");
获取number属性值为2的student标签下的age标签
导入JsoupXpath jar包、查询w3cschool参考手册使用Xpath语法来完成查询
stu.xml
JsoupDemo2.java