XMl学习笔记

唯代码动人心

于 2020-12-20 21:55:15 发布

阅读量222

点赞数

分类专栏： java基础文章标签： xml java 后端

本文链接：https://blog.csdn.net/qq_44154912/article/details/111404657

版权

java基础专栏收录该内容

23 篇文章 0 订阅

订阅专栏

XML

概念
- - 功能
  - xml与html的区别
语法
xml解析
jsoup解析器
- - 使用步骤
  - jsoup对象

概念

XML: Extensible Markup Language 可扩展标记语言

标签可以自定义,不像HTML标签都是预定义好的

功能

用来存储数据

作为配置文件,代替properties文件

存储简单的文件可以使用properties配置文件
存储复杂的文件,包括一些框架的配置文件一般使用xml文件

properties示例

name = 张三
age = 12

xml示例

<user>
     <name>张三</name>
     <age>12</age>
</user>

在网络中传输

xml与html的区别

	1. xml标签都是自定义的，html标签是预定义。
	2. xml的语法严格，html语法松散
	3. xml是存储数据的，html是展示数据

语法

基本语法

	1. xml文档的后缀名 .xml
	2. xml第一行必须定义为文档声明
	3. xml文档中有且仅有一个根标签
	4. 属性值必须使用引号(单双都可)引起来
	5. 标签必须正确关闭
	6. xml标签名称区分大小写!!!!!!!

快速入门

<?xml version='1.0' ?>
<users>
	<user>
		<name>张三</name>
		<age>12</age>
	</user>
</users>

组成部分

1.文档声明
格式：<?xml 属性列表 ?>
属性列表：

version：版本号，必须的属性
encoding：编码方式。告知解析引擎当前文档使用的字符集，默认值：ISO-8859-1
standalone：是否独立
                   取值：yes：不依赖其他文件				 no：依赖其他文件

2.指令(了解)：结合css的

<?xml-stylesheet type="text/css" href="a.css" ?>

3.标签：标签名称自定义的

规则：
* 名称可以包含字母、数字以及其他的字符
* 名称不能以数字或者标点符号开始
* 名称不能以字母 xml（或者 XML、Xml 等等）开始
* 名称不能包含空格
4. 属性：
id属性值唯一
5. 文本：
CDATA区：在该区域中的数据会被原样展示
格式： <![CDATA[ 数据 ]]>

 <![CDATA[
 if(a>b && a>c){}
 ]]>

xml约束

什么是约束

程序员来编写xml文件,软件(框架)来解析xml文件
但是解析需要一定的规则，这个规则就是约束
每一个框架的xml文件约束都是不一样的，当我们自己在写框架的时候也需要为框架设置xml约束

约束用来规定xml的书写规则，约束文档由软件(框架)提供
在这里插入图片描述

约束分类

		1. DTD:一种简单的约束技术，后缀：dtd
		dtd约束只能规定输入
		3. Schema:一种复杂的约束技术，后缀：xsd

dtd约束
通过ELEMENT来定义标签
通过ATTLIST来定义属性

声明一个students标签，这个标签里有student标签，个数不定
声明一个student标签，里面有name，age，sex三个标签，并且只能出现一次
又分别定义name，age，sex标签，#PCDATA表示里能存放字符串
声明属性，student标签有属性，属性名字叫number，类型为ID，也就是必须唯一，#REQUIRED表示属性必须出现

<!ELEMENT students (student*) >	
<!ELEMENT student (name,age,sex)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT sex (#PCDATA)>
<!ATTLIST student number ID #REQUIRED>

Schema约束

<?xml version="1.0"?>
<xsd:schema xmlns="http://www.itcast.cn/xml"
        xmlns:xsd="http://www.w3.org/2001/XMLSchema"
        targetNamespace="http://www.itcast.cn/xml" elementFormDefault="qualified">
    <xsd:element name="students" type="studentsType"/> #定义元素名字叫students
    <xsd:complexType name="studentsType">
        <xsd:sequence>
            <xsd:element name="student" type="studentType" minOccurs="0" maxOccurs="unbounded"/>
        </xsd:sequence>
    </xsd:complexType>
    <xsd:complexType name="studentType">
        <xsd:sequence>
            <xsd:element name="name" type="xsd:string"/>
            <xsd:element name="age" type="ageType" />
            <xsd:element name="sex" type="sexType" />
        </xsd:sequence>
        <xsd:attribute name="number" type="numberType" use="required"/>
    </xsd:complexType>
    <xsd:simpleType name="sexType">
        <xsd:restriction base="xsd:string">
            <xsd:enumeration value="male"/>
            <xsd:enumeration value="female"/>
        </xsd:restriction>
    </xsd:simpleType>
    <xsd:simpleType name="ageType">
        <xsd:restriction base="xsd:integer">
            <xsd:minInclusive value="0"/>
            <xsd:maxInclusive value="256"/>
        </xsd:restriction>
    </xsd:simpleType>
    <xsd:simpleType name="numberType">
        <xsd:restriction base="xsd:string">
            <xsd:pattern value="heima_\d{4}"/>
        </xsd:restriction>
    </xsd:simpleType>
</xsd:schema>

引入约束

 DTD文件：
	引入dtd文档到xml文档中
		内部dtd：将约束规则定义在xml文档中
	    外部dtd：将约束的规则定义在外部的dtd文件中
如果是本地文件：<!DOCTYPE 根标签名 SYSTEM "dtd文件的位置">
如果是网络文件：<!DOCTYPE 根标签名 PUBLIC "dtd文件名字" "dtd文件的位置URL">

Schema文件:
	引入：
			1.填写xml文档的根元素
			2.引入xsi前缀.  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
			3.引入xsd文件命名空间.  xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd"
			4.为每一个xsd约束声明一个前缀,作为标识  xmlns="http://www.itcast.cn/xml" 

		<students   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
			xmlns="http://www.itcast.cn/xml"
			xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd">

xml解析

概念:

操作xml文档，将文档中的数据读取到内存中
操作xml文档
1. 解析(读取)：将文档中的数据读取到内存中
2. 写入：将内存中的数据保存到xml文档中。持久化的存储

解析方式

解析xml的方式：
1. DOM：将标记语言文档一次性加载进内存，在内存中形成一颗dom树
优点：操作方便，可以对文档进行CRUD的所有操作
缺点：占内存
2. SAX：逐行读取，基于事件驱动的。
优点：不占内存。
缺点：只能读取，不能增删改

xml常见的解析器：

	1. JAXP：sun公司提供的解析器，支持dom和sax两种思想
	2. DOM4J：一款非常优秀的解析器
	3. Jsoup：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
	4. PULL：Android操作系统内置的解析器，sax方式的。

jsoup解析器

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

使用步骤

1.导入jar包,导入工作空间
在这里插入图片描述
2.获取Document对象
3.获取对应的标签
4.获取数据

jsoup对象

	1. Jsoup：工具类，可以解析html或xml文档，返回Document
		* parse：解析html或xml文档，返回Document
			* parse(File in, String charsetName)：解析xml或html文件的。
			* parse(String html)：解析xml或html字符串
			* parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象
	2. Document：文档对象。代表内存中的dom树
		* 获取Element对象
			* getElementById(String id)：根据id属性值获取唯一的element对象
			* getElementsByTag(String tagName)：根据标签名称获取元素对象集合
			* getElementsByAttribute(String key)：根据属性名称获取元素对象集合
			* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
	3. Elements：元素Element对象的集合。可以当做 ArrayList<Element>来使用
	4. Element：元素对象
		1. 获取子元素对象
			* getElementById(String id)：根据id属性值获取唯一的element对象
			* getElementsByTag(String tagName)：根据标签名称获取元素对象集合
			* getElementsByAttribute(String key)：根据属性名称获取元素对象集合
			* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

		2. 获取属性值
			* String attr(String key)：根据属性名称获取属性值
		3. 获取文本内容
			* String text():获取文本内容
			* String html():获取标签体的所有内容(包括字标签的字符串内容)
	5. Node：节点对象
		* 是Document和Element的父类