信息标记的三种形式:XML,JSON,YAML

信息标记的三种形式:XML,JSON,YAML
1.标记后的信息可以形成信息组织结构,增加了信息的难度
2,标记后的信息可用来通信、存储或展示
3.标记的结构与信息一样具有重要价值
4.标记后的信息有利于程序理解和运用,更有利于人对信息的利用和深度理解

HTML:hyper text markup language,超文本标记语言,是www信息组织的主要形式,能将声音、图像、视频等超文本的信息嵌入到文本中HTML通过预定义的<>…</>标签形式组织不同类型的信息

XML:扩展标记语言,采用以标签为主来构建信息、表达信息的方式
在这里插入图片描述
JSON:JavaScript语言,面向对象信息的一种表达方式,是有类型的键值对key:value构建的信息表达方式,对信息的定义叫键,如name,对值的描述叫value在
JSON类型中,键和值都需要通过增加双引号来表达它是字符串的形式,如果值不是字符串,而是像123,2020这样的数字,则不用使用双引号,直接写数字即可,一个键有多个值的时候采用[,]的形式,键值对可以嵌套,如:
‘key’:‘value’
‘key’:[1,2,3]
‘key’:{‘subkey’:‘subvalue’}
‘key’:[‘value1’,‘value2’]
在这里插入图片描述
YAML:无类型键值对key:value来表达信息,用缩进表示所属
如:
name:beijing
name:
subname:…
用-表示并列关系:name: -beijing -shanghai
用|表示整块数据,用#表示注释
在这里插入图片描述
在这里插入图片描述
三种标记信息的比较:
在这里插入图片描述
在这里插入图片描述
数据的爬取:针对给定的url进行爬取,并不爬取其他的url,叫定向爬取
爬取信息时:(1)首先要确定可行性,即提取返回的信息是否写在了html页面的代码中(因为有些数据是通过javascript脚本语言生成的)(2)要爬取的网站是否提供了robots协议,如在网站根目录下的robots.txt,如https://www.baidu.com/robots.txt,若是robots.txt为空,则表示允许所有爬虫无限制爬取
一些常见的网站的robots地址:
在这里插入图片描述
http采用url作为网络定位资源的标识,格式:http://host[:post][path]
host:合法的Internet主机域名或IP地址post:端口号,可省略,默认为80,path:请求资源的路径
HTTP协议对资源的操作:
在这里插入图片描述
url是通过http协议存取资源的Internet路径,一个url对应一个数据资源

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值