Python爬虫中的信息提取

一、信息的标记

1、标记后的信息可形成信息结构,增加了信息维度。

2、标记后的信息可用于通信、储存或展示。

3、标记后的结构与信息一样具有重要价值。

4、标记后的信息更利于程序的理解与运行

二、信息标记的三种形式

信息标记的三种形式为:xml、json、yaml。

XML :全名为:Extensible Markup Language。可扩展标记语言标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript 的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。

YAML:全名为:YAML Ain't Markup Language。是YAML不是一种标记语言的外语缩写  ;但为了强调这种语言以数据做为中心,而不是以置标语言为重点,而用返璞词重新命名。它是一种直观的能够被电脑识别的数据序列化格式,是一个可读性高并且容易被人类阅读,容易和脚本语言交互,用来表达资料序列的编程语言。它是类似于标准通用标记语言的子集XML数据描述语言

1、信息标记的三种形式的比较

XML:最早的标记信息通用语言,可拓展性好,但繁琐。

JSON:信息有类型,适合程序处理。比XML简洁。

YAML:信息无类型,文本信息比例高,可读性好。

2、实例如下

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值