Python爬虫-信息标记与提取


以下代码demo链接:https://python123.io/ws/demo.html

信息标记的三种形式

信息的标记

1.标记后的信息可形成信息组织结构,增加了信息维度
2. 标记后的信息可用于通信、存储和展示
3. 标记的结构与信息一样具有重要价值
4. 标记后的信息有利于程序理解和运用
HTML的信息标记:HTML通过预定义的<>…</>标签形式组织不同类型的信息

信息标记的三种形式

XML: 指可扩展标记语言,被设计用来传输和存储数据。
XML实例:
[外链图片转存失败,源站可能有防盗在这里插入!链机制,建描述]议将图片上https://传(imblog.gdimg.cn/20200HrnM519124109481.png)(https://img-图片blog.csdnimg.cn/20200519124109481.png)]
JSON:是一种轻量级的数据交换格式,简洁和清晰的层次结构使得 它成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
JSON实例:
在这里插入图片描述
YAML :可以简单表达清单、散列表,标量等数据形态。它使用空白符号缩进和大量依赖外观的特色,特别适合用来表达或编辑数据结构、各种配置文件、倾印调试内容、文件大纲。
YAML实例:
在这里插入图片描述
(以上图片来自中国慕课 嵩天老师教学视频)

信息提取的一般方法

方法1:
完整解析信息的标记形式,再提取关键信息 。
需要标记解析器 例如:bs4库的标签树遍历 。
优点:信息解析准确
缺点:提取过程繁琐,速度慢

方法2:
无视标记形式,直接搜索关键信息 。
对信息的文本查找函数即可
优点:提取过程简洁,速度较快
缺点:提取结果准确性与信息内容相关

融合方法:
结合形势解析与搜索方法,提取关键信息
需要标记解析器及文本查找函数

实例:提取HTML中所有的URL链接


                
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值