文章目录
🖥️介绍
ref: Python网络爬虫与信息提取_北京理工大学_中国大学MOOC(慕课) 单元5
信息标记形式是当今网络世界中非常重要的一部分。目前主要被大众认可的有三类。xml
,json
,yaml
。
- 标记后的信息可形成信息组织结构,增加了信息维度
- 标记的结构与信息一样具有重要价值
- 标记后的信息可用于通信、存储或展示
- 标记后的信息更利于程序理解和运用
🖥️三种形式
🏷️XML (Extensible Markup Language)
可扩展标记语言 (Extensible Markup Language, XML) ,标准通用标记语言的子集,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 XML是标准通用标记语言 可扩展性良好,内容与形式分离,遵循严格的语法要求,保值性良好等优点。
在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术,也是当今处理分布式结构信息的有效工具。早在1998年,W3C就发布了XML1.0规范,使用它来简化Internet的文档信息传输。
🔖规范
-
文档结构:XML文档由根元素开始,所有其他元素都嵌套在根元素内。
-
标签:XML元素由开始标签和结束标签组成,标签名称区分大小写。
-
属性:元素可以有属性,属性值必须用引号包围。
-
实体引用:XML提供了一些预定义的实体引用,如
<
代表小于号<
,>
代表大于号>
。 -
注释:注释以
<!--
开始,以-->
结束。 -
命名规则:元素名称可以包含字母、数字、下划线和点,但不能以数字或下划线开头。
-
空元素:空元素可以用自闭合标签表示,如
<element />
。 -
字符数据:元素内容可以包含文本,称为字符数据(CDATA),可以使用
<]>
来包含特殊字符。 -
命名空间:XML支持使用命名空间来避免元素名称冲突。
-
文档类型声明:XML文档可以包含一个文档类型声明(DOCTYPE),用于指定文档的结构。
<?xml version="1.0" encoding="utf-8"?>
🔖注释
<root>
<!-- 这是一个注释,它不会影响XML文档的结构 -->
<element attribute="