XML

最新推荐文章于 2023-11-23 16:13:44 发布

HANXIUHUI

最新推荐文章于 2023-11-23 16:13:44 发布

阅读量821

点赞数 3

分类专栏： XML 文章标签： XML

本文链接：https://blog.csdn.net/weixin_41463971/article/details/88395368

版权

XML 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文档声明
1. 格式：<?xml 属性列表 encoding="UTF-8" ?>
2. 属性列表
  - version 版本号。必须写的属性 <?xml version="1.0" ?>
  - encoding 编码方式。告知解析引擎当前文档使用的字符集，默认值：ISO-8859-1。<?xml version="1.0" encoding="UTF-8" ?>
  - standalone 是否独立。standalone=“yes” 不依赖其他文件；standalone=“no” 依赖其他文件
指令（了解）：结合css
- <?xml-stylesheet type="text/css" href="a.css" ?>
标签：标签名称自定义
- 命名规则
  1. 名称可以包含字母、数字以及其他的字符
  2. 名称不能以数字或者标点符号开始
  3. 名称不能以字母 xml(或者 XML Xml等)开始
  4. 名称不能包含空格
属性
- id属性值唯一
- 属性值必须使用引号引起来（单双引号都可以）
文本内容
- CDATA区：在该区域中的数据会被原样展示。
- CDATA区格式：[![CDATA[数据]]
  示例：
  
  if(a < b & a > c){}
  
  我们也可以使用CDATA区实现上述文本的展示：
  <![CDATA[ if(a < b && a > c){} ]]]>

约束：规定xml文档的书写规则
约束分类：

DTD：一种简单的约束技术
如何把dtd文件导入到xml文档中
1️⃣内部dtd：将约束规则定义在xml文档中

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE students [
		<!ELEMENT students (student*) >
		<!ELEMENT student (name,age,sex)>
		<!ELEMENT name (#PCDATA)>
		<!ELEMENT age (#PCDATA)>
		<!ELEMENT sex (#PCDATA)>
		<!ATTLIST student number ID #REQUIRED>
		]>

2️⃣外部dtd：将约束规则定义在外部的dtd文件中

student.dtd文件：

<!ELEMENT students (student*) >
<!ELEMENT student (name,age,sex)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT sex (#PCDATA)>
<!ATTLIST student number ID #REQUIRED>

另外，将dtd文件，导入xml文件中的方式分为两种：
本地导入：<!DOCTYPE 根标签名 SYSTEM "dtd文件的位置.dtd">
网络导入：<!DOCTYPE 根标签名 PUBLIC "dtd文件名" "dtd文件的url.dtd">

Schema：一种复杂的约束技术

三、解析

操作xml文档，将文档中的数据读取到内存中

操作xml文档
1. 解析（读取）
2. 写入：将内存中的数据保存到xml文档中。持久化的存储
解析xml的方式：
1. DOM 思想（一般应用于服务端）：将标记语言文档一次性加载进内存，在内存中会形成一棵dom树
  - 优点：操作方便，可以对文档进行CRUD的所有操作
  - 缺点：占大量内存
2. SAX 思想（一般应用于移动端）：逐行读取，基于事件驱动。
  - 优点：读一行释放一行，不占内存
  - 缺点：只能读取，不能增删改
常见的xml解析器
1. JAXP：Sun公司提供的解析器，支持dom和sax两种思想。
2. DOM4J：一款非常优秀的解析器。
3. Jsoup：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
4. PULL：Android操作系统内置的解析器。sax方式。
Jsoup：Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
- 步骤：
  1. 导入jar包
  2. 获取Document对象
  3. 获取对应的标签Element对象
  4. 获取数据
- 对象的使用：
  1. Jsoup 工具类，可以解析html或xml文档，返回Document
    - parse：解析html或xml文档，返回Document
      - Document parse(File in, String charsetName) 解析html或xml文档
        // 获取student.xml的path
        String path = Demo2_Jsoup.class.getClassLoader().getResource(“student.xml”).getPath();
        // 解析xml文档，加载文档进内存，获取dom树 – Document
        Document document = Jsoup.parse(new File(path), “UTF-8”);
        System.out.println(document);
      - Document parse(String html) 解析html或xml字符串
        String htmlStr = “<?xml version=\"1.0\" encoding=\"UTF-8\" ?>\n” +
        “\n” +
        " \n" +
        " \t<student number=“stu_0001”>\n" +
        " \t\ttom\n" +
        " \t\t18\n" +
        " \t\tmale\n" +
        " \t\n" +
        " ";
        Document document = Jsoup.parse(htmlStr);
      - Document parse(URL url, int timeoutMillis) 通过网络路径获取指定的html或xml的文档
        URL url = new URL(“https://baike.baidu.com/item/jsoup/9012509?fr=aladdin”);
        Document document = Jsoup.parse(url, 3000);
        System.out.println(document);
  2. Document 文档对象。代表内存中的dom树
    - 获取Element对象
      - Elements getElementsByTag(String tagName) 根据标签名称获取元素对象的集合
      - Elements getElementsByAttribute(String key) 根据属性名称获取元素对象集合
      - Elements getElementsByAttributeValue(String key, String value) 根据对应的属性名和属性值获取元素对象集合。
      - Element getElementById(String id) 根据id值获取元素对象
  3. Elements 元素Element对象的集合。可以当做 ArrayList 来使用
  4. Element 元素对象
    1. 获取子元素对象
      - Elements getElementsByTag(String tagName) 根据标签名称获取元素对象的集合
      - Elements getElementsByAttribute(String key) 根据属性名称获取元素对象集合
      - Elements getElementsByAttributeValue(String key, String value) 根据对应的属性名和属性值获取元素对象集合。
      - Element getElementById(String id) 根据id值获取元素对象
    2. 获取属性值
      - String attr(String attributeKey) 根据属性名称获取属性值
    3. 获取文本内容
      - String text() 获取所有子标签的纯文本呢内容
      - String html() 获取子标签及其内容
  5. Node 节点对象
    - Document 和 Element 的父类
- 快捷查询方式
  1. selector 选择器
    - Elements select(String cssQuery)
    - 语法：查看 Selector 选择器中定义的语法
  2. XPath：XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
    - 使用Jsoup的XPath需要额外导入jar包。
    - 参考手册：http://www.w3school.com.cn/xpath/xpath_syntax.asp

HANXIUHUI

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
XML

目录一、概念二、语法三、解析一、概念：Extensible Markup Language 可扩展标记语言可扩展：标签都是自定义的。功能存储数据配置文件在网络中传输与html的区别xml的标签都是自定义的；html的标签是预定义的xml语法严格；html语法松散xml存储数据；html展示数据二、语法基本语法xml文档的后缀是.xmlxml第...
复制链接

扫一扫