爬虫-信息组织与提取方法

信息标记的三种形式:

XML: 扩展标记语言,用<>,以标签为主,名称,属性等

JSON:有类型的键值对,可以嵌套使用,可以一个键对应多个值

YAML:无类型键值对,用缩进的形式表达所属关系,-表示并列关系

 

比较

XML  最早的通用信息标记语言,可扩展性好,但是繁琐;适用于Internet上的信息交互与传递

JSON  信息有类型,适合程序处理,较XML简洁;适用于移动应用云端和节点的信息通信,无注释

YAML  信息无类型,文本信息比例较高,可读性好;适用于各类系统的配置文件,有注释易读

 

#下面编程提取以上html里的所有链接
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
for link in soup.find_all('a'):
    print(link.get('href'))

返回:

http://www.icourse163.org/course/BIT-268001
http://www.icourse163.org/course/BIT-1001870001

 

转载于:https://www.cnblogs.com/rayshaw/p/8570957.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值