xml

第一章 xml

1.1 xml概述

什么是XML

  • XML :可扩展标记语言(EXtensible Markup Language)
    XML 它是一种标记语言,很类似 HTML,HTML文件也是XML文档,标签都是自定义的。 如: 或

  • W3C在1988年2月发布1.0版本,2004年2月又发布1.1版本,单因为1.1版本不能向下兼容1.0版本,所以1.1没有人用。同时,在2004年2月W3C又发布了1.0版本的第三版。我们要学习的还是1.0版本。

XML 与 HTML 的主要差异

  • xml标签都是自定义的,html标签是预定义。
  • xml的语法严格,html语法松散。
  • xml是存储数据的,html是展示数据。

1.2 xml的组成元素

文档声明

  • XML文档声明格式:

    <?xml version="1.0" encoding="UTF-8"?>
  1. 文档声明必须为<?xml开头,以?>结束;

  2. 文档声明必须从文档的0行0列位置开始;

  3. 文档声明只有2个属性:

    1. versioin:指定XML文档版本。必须属性,因为我们不会选择1.1,只会选择1.0;
    2. encoding:指定当前文档的编码。可选属性,默认值是utf-8;

元素

  • 元素 element

  1. 元素是XML文档中最重要的组成部分,

  2. 普通元素的结构开始标签、元素体、结束标签组成。例如:大家好

  3. 元素体:元素体可以是元素,也可以是文本,例如:你好

  4. 空元素:空元素只有开始标签,而没有结束标签,但元素必须自己闭合,例如:

  5. 元素命名:

    1. 区分大小写
    2. 不能使用空格,不能使用冒号:
    3. 不建议以XML、xml、Xml开头
  6. 格式化良好的XML文档,必须只有一个根元素。

属性

  • 属性 attribute

    <beanid="" className="">

  1. 属性是元素的一部分,它必须出现在元素的开始标签中

  2. 属性的定义格式:属性名=属性值,其中属性值必须使用单引或双引

  3. 一个元素可以有0~N个属性,但一个元素中不能出现同名属性

  4. 属性名不能使用空格、冒号等特殊字符,且必须以字母开头

注释

XML的注释,以“ ”结束。注释内容会被XML解析器忽略!

转义字符

因为很多符号已经被XML文档结构所使用,所以在元素体或属性值中想使用这些符号就必须使用转义字符,例如:“<”、“>”、“’”、“””、“&”。

1.3 xml约束

在XML技术里,可以编写一个文档来约束一个XML文档的书写规范,这称之为XML约束。

常见的xml约束:DTD、Schema

1.3.1 DTA约束

什么是DTD

DTD(Document Type Definition),文档类型定义,用来约束XML文档。规定XML文档中元素的名称,子元素的名称及顺序,元素的属性等。

DTD重点要求

开发中,我们很少自己编写DTD约束文档,通常情况我们都是通过框架提供的DTD约束文档,编写对应的XML文档。常见框架使用DTD约束有:struts2、hibernate等。

1.3.2 Schema约束

什么是Schema

Schema是新的XML文档约束;

Schema要比DTD强大很多,是DTD 替代者;

Schema本身也是XML文档,但Schema文档的扩展名为xsd,而不是xml。

Schema 功能更强大,数据类型更完善

Schema 支持名称空间

Schema重点要求

与DTD一样,要求可以通过schema约束文档编写xml文档。常见框架使用schema的有:Spring等

第二章 dom4j

2.1 xml解析概述

当将数据存储在XML后,我们就希望通过程序获得XML的内容。如果我们使用Java基础所学习的IO知识是可以完成的,不过你需要非常繁琐的操作才可以完成,且开发中会遇到不同问题(只读、读写)。人们为不同问题提供不同的解析方式,并提交对应的解析器,方便开发人员操作XML。

2.2 常见的解析方式和解析器

  • 开发中比较常见的解析方式有三种,如下:
  1. DOM:要求解析器把整个XML文档装载到内存,并解析成一个Document对象。
    优点:元素与元素之间保留结构关系,故可以进行增删改查操作。
    缺点:XML文档过大,可能出现内存溢出显现。
  2. SAX:是一种速度更快,更有效的方法。它逐行扫描文档,一边扫描一边解析。并以事件驱动的方式进行具体解析,每执行一行,都将触发对应的事件。(了解)
    优点:处理速度快,可以处理大文件
    缺点:只能读,逐行后将释放资源。
  3. PULL:Android内置的XML解析方式,类似SAX。(了解)
  • 解析器:就是根据不同的解析方式提供的具体实现。有的解析器操作过于繁琐,为了方便开发人员,有提供易于操作的解析开发包

  • 常见的解析开发包:

    • JAXP:sun公司提供支持DOM和SAX开发包
    • JDom:dom4j兄弟
    • jsoup:一种处理HTML特定解析开发包
    • dom4j:比较常用的解析开发包,hibernate底层采用。

2.3 dom解析原理和结构模型

XML DOM 将整个XML文档加载到内存,生成一个DOM树,并获得一个Document对象,通过Document对象就可以对DOM进行操作

DOM中的核心概念就是节点,在XML文档中的元素、属性、文本等,在DOM中都是节点!

2.4 API使用

DOM4J是一个Java的XML API,具有性能优异、功能强大和极其易使用的特点,它的性能超过sun公司官方的dom技术,如今可以看到越来越多的Java软件都在使用DOM4J来读写XML。

如果想要使用DOM4J,需要引入支持xpath的jar包 dom4j-1.6.1.jar

DOM4J必须使用核心类SaxReader加载xml文档获得Document,通过Document对象获得文档的根元素,然后就可以操作了。

常用API如下:

  1. SaxReader对象
    read(…) 加载执行xml文档
  2. Document对象
    getRootElement() 获得根元素
  3. Element对象
    elements(…) 获得指定名称的所有子元素。可以不指定名称
    element(…) 获得指定名称第一个子元素。可以不指定名称
    getName() 获得当前元素的元素名
    attributeValue(…) 获得指定属性名的属性值
    elementText(…) 获得指定名称子元素的文本值
    getText() 获得当前元素的文本内容

第三章 XPath解析XML

  • XPath 是一门在 XML、html 文档中查找信息的语言。

  • XPath 是一个 W3C 标准,可通过W3CSchool文档查阅语法

由于DOM4J在解析XML时只能一层一层解析,所以当XML文件层数过多时使用会很不方便,结合XPATH就可以直接获取到某个元素

使用dom4j支持xpath具体操作

默认的情况下,dom4j不支持xpath,如果想要在dom4j里面使用xpath,需要引入支持xpath的jar包 jaxen-1.1.6.jar

在dom4j里面提供了两个方法,用来支持xpath

List<Node> selectNodes("xpath表达式"),用来获取多个节点
Node selectSingleNode("xpath表达式"),用来获取一个节点

xpath表达式常用查询形式

  • 第一种查询形式
    /AAA/DDD/BBB: 表示一层一层的,AAA下面 DDD下面的BBB

  • 第二种查询形式
    //BBB: 表示和这个名称相同,表示只要名称是BBB 都得到

  • 第三种查询形式
    /*: 所有元素

  • 第四种查询形式
    BBB[1]:表示第一个BBB元素
    BBB[last()]:表示最后一个BBB元素

  • 第五种查询形式
    //BBB[@id]: 表示只要BBB元素上面有id属性 都得到

  • 第六种查询形式
    //BBB[@id=‘b1’] 表示元素名称是BBB,在BBB上面有id属性,并且id的属性值是b1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值