信息标记形式 (XML, JSON, YAML)

🖥️介绍

ref: Python网络爬虫与信息提取_北京理工大学_中国大学MOOC(慕课) 单元5

信息标记形式是当今网络世界中非常重要的一部分。目前主要被大众认可的有三类。xml,json,yaml

  1. 标记后的信息可形成信息组织结构,增加了信息维度
  2. 标记的结构与信息一样具有重要价值
  3. 标记后的信息可用于通信、存储或展示
  4. 标记后的信息更利于程序理解和运用

🖥️三种形式

🏷️XML (Extensible Markup Language)

可扩展标记语言_百度百科 (baidu.com)

可扩展标记语言 (Extensible Markup Language, XML) ,标准通用标记语言的子集,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 XML是标准通用标记语言 可扩展性良好,内容与形式分离,遵循严格的语法要求,保值性良好等优点。

在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术,也是当今处理分布式结构信息的有效工具。早在1998年,W3C就发布了XML1.0规范,使用它来简化Internet的文档信息传输。

🔖规范

  1. 文档结构:XML文档由根元素开始,所有其他元素都嵌套在根元素内。

  2. 标签:XML元素由开始标签和结束标签组成,标签名称区分大小写。

  3. 属性:元素可以有属性,属性值必须用引号包围。

  4. 实体引用:XML提供了一些预定义的实体引用,如<代表小于号<>代表大于号>

  5. 注释:注释以<!--开始,以-->结束。

  6. 命名规则:元素名称可以包含字母、数字、下划线和点,但不能以数字或下划线开头。

  7. 空元素:空元素可以用自闭合标签表示,如<element />

  8. 字符数据:元素内容可以包含文本,称为字符数据(CDATA),可以使用<]>来包含特殊字符。

  9. 命名空间:XML支持使用命名空间来避免元素名称冲突。

  10. 文档类型声明:XML文档可以包含一个文档类型声明(DOCTYPE),用于指定文档的结构。

<?xml version="1.0" encoding="utf-8"?>

🔖注释

<root>
  <!-- 这是一个注释,它不会影响XML文档的结构 -->
  <element attribute="
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天赐细莲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值