Python爬虫-信息标记与提取

最新推荐文章于 2023-03-30 21:24:50 发布

错落星辰.

最新推荐文章于 2023-03-30 21:24:50 发布

阅读量321

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46068895/article/details/106211978

版权

目录

信息标记的三种形式
- 信息的标记
- 信息标记的三种形式
信息提取的一般方法
bs4库的HTML内容查找方法

以下代码demo链接：https://python123.io/ws/demo.html

信息标记的三种形式

信息的标记

1.标记后的信息可形成信息组织结构，增加了信息维度
2. 标记后的信息可用于通信、存储和展示
3. 标记的结构与信息一样具有重要价值
4. 标记后的信息有利于程序理解和运用
HTML的信息标记：HTML通过预定义的<>…</>标签形式组织不同类型的信息

信息标记的三种形式

XML：指可扩展标记语言，被设计用来传输和存储数据。
XML实例：
[外链图片转存失败,源站可能有防盗在这里插入!链机制,建描述]议将图片上https://传(imblog.gdimg.cn/20200HrnM519124109481.png)(https://img-图片blog.csdnimg.cn/20200519124109481.png)]
JSON：是一种轻量级的数据交换格式，简洁和清晰的层次结构使得它成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。
JSON实例：
在这里插入图片描述
YAML ：可以简单表达清单、散列表，标量等数据形态。它使用空白符号缩进和大量依赖外观的特色，特别适合用来表达或编辑数据结构、各种配置文件、倾印调试内容、文件大纲。
YAML实例：

（以上图片来自中国慕课嵩天老师教学视频）

信息提取的一般方法

方法1：
完整解析信息的标记形式，再提取关键信息。
需要标记解析器例如：bs4库的标签树遍历。
优点：信息解析准确
缺点：提取过程繁琐，速度慢

方法2：
无视标记形式，直接搜索关键信息。
对信息的文本查找函数即可
优点：提取过程简洁，速度较快
缺点：提取结果准确性与信息内容相关

融合方法：
结合形势解析与搜索方法，提取关键信息
需要标记解析器及文本查找函数

实例：提取HTML中所有的URL链接

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫-信息标记与提取

本文介绍了信息标记的三种形式，信息的标记，信息提取的一般方法（附代码）bs4库的HTML内容查找方法（附代码，可运行）
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。