信息标记的三种形式(爬虫基础)

一. 前言

学习爬虫不仅要学习怎样爬取到一个网页,更要学习如何将爬取到的内容进行解析,没有解析的数据是没有价值的,下面就让我们看一下网页中信息标记的三种形式.

 

二. 三种形式:

1.XML(可扩展标记语言):

(1)主要通过标签的形式对信息进行标记:

例:  <name>内容</name>        (中间有内容)

      <name/>                             (中间没内容)

      <!---->                                 (注释)

2.JSON:

(1)有类型的键值对:        "key":"value"

(2)键和值都要加双引号表示字符串类型,数字可以不用加双引号

(3)一个键对应多个值时加中括号:

例:  "name":["value1", "value2"]

(4)键值对嵌套用{,}:

例:  "name":{

              "oldName":"value1",

              "newName":"value2"

       }

(5)"key":"value"

    "key":["value1", "value2"]

    "key":{"subkey":"subvalue"}

3.YAML:

(1)无类型键值对     key:value

(2)通过缩进来表达所属关系

例:  name:

           oldName:北京理工大学

           newName:延安自然科学院

(3)-表达并列关系:

例:  name:

      -北京理工大学

      -延安自然科学院

(4)|标达整块数据,#表示注释

例:  个人简介:|     #简介

      我的名字叫马马也,位于山东省济南市,现在是一名在校大二学生,性别男,爱好女,是一个积极向上,拥护党和国家的三好少年,希望大家多多关注我,

 

三. 三种信息标记形式的比较:

1.XML:可扩展性好,但繁琐.主要用于在Internet上的信息交互与传递.

2.JSON:信息有类型,适合程序处理(js),较XML简介.主要用于移动应用云端和节点的信息通信,无注释.

3.YAML:信息无类型,文本信息比例最高,可读性好.各类系统的配置文件,有注释易读.

 

        

 

  

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值