一. 前言
学习爬虫不仅要学习怎样爬取到一个网页,更要学习如何将爬取到的内容进行解析,没有解析的数据是没有价值的,下面就让我们看一下网页中信息标记的三种形式.
二. 三种形式:
1.XML(可扩展标记语言):
(1)主要通过标签的形式对信息进行标记:
例: <name>内容</name> (中间有内容)
<name/> (中间没内容)
<!----> (注释)
2.JSON:
(1)有类型的键值对: "key":"value"
(2)键和值都要加双引号表示字符串类型,数字可以不用加双引号
(3)一个键对应多个值时加中括号:
例: "name":["value1", "value2"]
(4)键值对嵌套用{,}:
例: "name":{
"oldName":"value1",
"newName":"value2"
}
(5)"key":"value"
"key":["value1", "value2"]
"key":{"subkey":"subvalue"}
3.YAML:
(1)无类型键值对 key:value
(2)通过缩进来表达所属关系
例: name:
oldName:北京理工大学
newName:延安自然科学院
(3)-表达并列关系:
例: name:
-北京理工大学
-延安自然科学院
(4)|标达整块数据,#表示注释
例: 个人简介:| #简介
我的名字叫马马也,位于山东省济南市,现在是一名在校大二学生,性别男,爱好女,是一个积极向上,拥护党和国家的三好少年,希望大家多多关注我,
三. 三种信息标记形式的比较:
1.XML:可扩展性好,但繁琐.主要用于在Internet上的信息交互与传递.
2.JSON:信息有类型,适合程序处理(js),较XML简介.主要用于移动应用云端和节点的信息通信,无注释.
3.YAML:信息无类型,文本信息比例最高,可读性好.各类系统的配置文件,有注释易读.