1. 什么是xml
- XML指可扩展标记语言(Extensible Markup Language)
- XML是一种标记语言,很类似HTML
- XML的设计宗旨是传输数据,而非显示数据
- XML标签没有被预定义,您需要自行定义标签
- XML被设计为具有自我描述性
- XML是W3C的推荐标准
2. HTML与XML区别
- XML不是HTML的替代
- XML和HTML为不同的目的而设计
- XML被设计为传输和存储数据,其焦点是数据的内容
- HTML被设计用来显示数据,其焦点是数据的外观
- HTML旨在显示信息,而XML旨在传输信息
- HTML语法比较松散,XML语法严格
- HTML所有标签都是预先定义好的,使用固定的标签,展示不同的内容
- XML当中的标签都是自己定义的
- XML的用处
3. 基本语法
1. 文档声明
- 必须写在文档的第一行
- 写法:
- 属性:
- version版本号,固定1.0
- encoding指定文档的码表,默认iso-8859-1
- standalone指定文档是否独立yes或no
2. 规则
1. 语法规则
- 所有XML元素都必须有关闭标签
- XML标签对大小写敏感
- XML必须正确的嵌套
- XML文档必须有根元素
- XML的属性值必须加引号
- 实体引用
- 在XML中,一些字符拥有特殊的意义
- 如果把字符"<"放在XML元素中,会发生错误,这是因为解析器会把它当作新元素的开始
- 这样会产生XML错误:为了避免这个错误,请用实体引用来代替"<"字符:
- 5个预定义的实体引用
- & lt; < 小于
- & gt; > 大于
- & amp; & 和号
- & apos; ’ 单引号
- & quot; “” 双引号
2. 命名规则
- 名称可以含字母、数字以及其他的字符
- 名称不能以数字或者标点符号开始
- 名称不能以字符 “xml”(或者 XML、Xml)开始
- 名称不能包含空格
3. 文本
1. 转义字符
2. CDATA
- 里面的数据会原样显示
- <![CDATA[数据内容]]>
4. 属性
4. XML约束
1. 什么是约束
2. 约束分类
1. DTD约束
- 内部dtd
- 外部dtd
- 在外部文件当中单独定义的dtd
- 本地:
<!DOCTYPE 名称 SYSTEM "student.dtd">
- 网络:
<!DOCTYPE students PUBLIC "命名空间" "student.dtd">
- 约束语法
- 存在问题
- 在标签当中存放的内容不知道是什么类型,写的都是汉字,这种约束不严谨
2. schema
- 复杂标签
- 简单标签
- 语法
- type 起的别名
- complexType name=“students”
- element name="" minOccur相当于dtd的*
- simpleTyle
- restriction base=“xsd:string” 限制简单标签当中的数据类型
- 使用过程
- 编写根标签
- 引用约束地址
- xsi:schemaLocation=“默认空间 约束地址.xsd”
- 引用实例名称空间
- xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance”
- 默认名称空间
- xmlns=“http://www.it666.cn/xml”
5. XML解析
1. XML文档结构
1. XML的树结构
<students>
<student number="a001">
<name>张三</name>
<age>18</age>
<sex>男</sex>
<student>
<student number="a002">
<name>李四</name>
<age>20</age>
<sex>男</sex>
<student>
</students>
2. 结点
- 文档结点
- student.xml
- Document: 文档结点 xml文件
- 元素结点
- students
- Element: 元素结点 使用<>的标签
- 属性结点
- number
- Attr: 属性结点 元素上属性名=“属性值”
- 文本结点
2. DOM
1. 什么是DOM
- DOM(Document Object Model)
- 文档对象模型,把文档中的成员描述成一个个对象.
- 使用Java代码操作XML 或者 js代码操作HTML
2. DOM解析的特点
- 在加载的时候,一次性的把整个XML文档加载进内存,在内存中形成一颗树(Document对象).
- 以后使用代码操作Document,其实操作的是内存中的DOM树,和本地磁盘中的XML文件没有直接关系.
- 由于操作的是内存当中的dom,磁盘中xml当中的内容并没有变,要进行同步,让两边保持一致
- 缺点: 若XML文件过大,可能造成内存溢出.
3. DOM解析步骤
- 创建解析器工厂
- 通过解析器工厂得到解析器
- 通过解析器得到document对象
- 获取具体的节点内容
DocumentBuilderFactory bdf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = bdf.newDocumentBuilder();
Document doc = db.parse("src/com/xml/parse/student.xml");
NodeList allStu = doc.getElementsByTagName("student");
Node stu = allStu.item(0);
System.out.println(stu.getTextContent());
4. DOM修改元素内容
- 获取所有指定节点
- 获取要修改的节点
- 修改元素内容
- 从内存写到文档做同步操作
NodeList ageList = doc.getElementsByTagName("age");
Node age = ageList.item(0);
age.setTextContent("30");
Transformer tf = TransformerFactory.newInstance().newTransformer();
tf.transform(new DOMSource(doc), new StreamResult("src/com/xml/parse/student.xml"));
5. DOM添加元素
- 创建一个节点
- 设置元素内容
- 获取要添加元素的父结点
- 添加节点
- 从内存写到文档做同步操作
Element address = doc.createElement("address");
address.setTextContent("地址1");
NodeList stuList = doc.getElementsByTagName("student");
Node stuNode = stuList.item(0);
stuNode.appendChild(address);
Transformer tf = TransformerFactory.newInstance().newTransformer();
tf.transform(new DOMSource(doc), new StreamResult("src/com/xml/parse/student.xml"));
6. DOM删除元素
- 获取一个节点
- 获取该节点的父节点,从父节点当中移除
- 从内存写到文档做同步操作
static void test4(Document doc) throws Exception{
Node addressNode = doc.getElementsByTagName("address").item(0);
addressNode.getParentNode().removeChild(addressNode);
Transformer tf = TransformerFactory.newInstance().newTransformer();
tf.transform(new DOMSource(doc), new StreamResult("src/com/xml/parse/student.xml"));
}
7. DOM添加元素属性
- 获取要添加属性的节点
- 把获取的节点强制转换成element
- 设置属性
- 从内存写到文档做同步操作
static void test5(Document doc) throws Exception{
Node stu = doc.getElementsByTagName("student").item(0);
Element stuEle = (Element)stu;
stuEle.setAttribute("ID","00001");
Transformer tf = TransformerFactory.newInstance().newTransformer();
tf.transform(new DOMSource(doc), new StreamResult("src/com/xml/parse/student.xml"));
}
3. dom4j
1. Sax解析介绍
- 逐行读取,基于事件驱动
- 优点:不占内存,速度快
- 缺点:只能读取,不能回写
- 解析流程
- 开始文档:startDocument
- 开始元素:startElement
- 解析文本:characters
- 结束元素:endElement
- 结束文档:endDocument
2. DOM4j介绍
- DOM4J是dom4j.org出品的一个开源XML解析包
- dom4j是一个十分优秀的JavaXML API,具有性能优异、功能强大和极其易使用的特点,它的性能超过sun公司官方的dom技术,同时它也是一个开放源代码的软件
- 越来越多的Java软件都在使用dom4j来读写XML,特别值得一提的是连Sun的JAXM也在用dom4j。这已经是必须使用的jar包, Hibernate也用它来读写配置文件。
4. dom4解析步骤
- 下载Dom4j的jar包
- 在工程根目录当中创建一个文件夹为lib
- 编译jar包
- 创建SAXReader
- 读取指定路径的xml
- 获取所有指定标签内容
- 创建SAXReader
- 获取根元素
- 获取根元素下所有的元素
- 遍历每一个子元素
- 获取指定名称的元素
- 获取标签当中的文本
public static void main(String[] args) throws Exception{
SAXReader reader = new SAXReader();
Document doc = reader.read("src/com/xml/parse/student.xml");
Element root = doc.getRootElement();
List<Element> studentList = root.elements();
for(Element stuEle : studentList){
Element nameEle = stuEle.element("name");
System.out.println(nameEle.getText());
}
}
- 获取全部标签内容
- 创建SAXReader
- 获取根元素
- 获取根元素下所有的元素
- 遍历每一个子元素
SAXReader reader = new SAXReader();
Document doc = reader.read("src/com/xml/parse/student.xml");
Element root = doc.getRootElement();
List<Element> studentList = root.elements();
for(Element stuEle : studentList){
String name = stuEle.elementText("name");
String age = stuEle.elementText("age");
String sex = stuEle.elementText("sex");
String num = stuEle.attributeValue("number");
}
- 添加元素
- 创建SAXReader
- 获取根元素
- 给根元素添加元素和属性,并返回添加的元素
SAXReader reader = new SAXReader();
Document doc = reader.read("src/com/xml/dom4j/student.xml");
Element root = doc.getRootElement();
Element stuEle = root.addElement("student").addAttribute("number","0001");
stuEle.addElement("name").setText("rh");
stuEle.addElement("age").setText("18");
stuEle.addElement("sex").setText("女");
Writer wr = new OutputStreamWriter(new FileOutputStream("src/com/xml/dom4j/student.xml"),"UTF-8");
doc.write(wr);
wr.close();