python网络爬虫(四):信息标记与信息提取

一.信息标记的方式
HTML是WWW(world wide web)上,通过预定义标签组织信息的方式,将声音,图像,视频等超文本信息嵌入到文本中。
三种主要组织信息方式的对比

方式说明应用领域
XML最早的通用信息标记语言,可扩展性好,但繁琐Internet上信息的交互与传递
JSON信息有类型,适合程序处理(js),比XML简洁移动应用云端和节点的信息通信,无注释
YAML信息无类型,文本信息比例最高,可读性好各类系统的配置文件,有注释易读

二.信息提取的方法
1。完整解析信息的标记形式,再提取关键信息。
需要标记解析器,例如:bs4库的标签遍历
优点:信息解析准确
缺点:提取过程繁琐,速度慢
2.。无视标记形式,直接搜索关键信息
需要信息的文本查找函数
优点:提取过程简单,速度较快
缺点:提取结果准确性与信息内容相关。
3.。融合以上两种方法(更好)
例如:提取HTMML中的所有URL链接
思路:1)搜索到所有《a》标签
2)解析《a》标签格式,提取href后的链接内容。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值