python网络爬虫（四）：信息标记与信息提取

最新推荐文章于 2022-09-08 11:32:43 发布

酒千殇

最新推荐文章于 2022-09-08 11:32:43 发布

阅读量126

点赞数

本文链接：https://blog.csdn.net/qq_40492048/article/details/104738939

版权

一.信息标记的方式
HTML是WWW(world wide web)上,通过预定义标签组织信息的方式，将声音，图像，视频等超文本信息嵌入到文本中。
三种主要组织信息方式的对比

方式	说明	应用领域
XML	最早的通用信息标记语言，可扩展性好，但繁琐	Internet上信息的交互与传递
JSON	信息有类型，适合程序处理(js)，比XML简洁	移动应用云端和节点的信息通信，无注释
YAML	信息无类型，文本信息比例最高，可读性好	各类系统的配置文件，有注释易读

二.信息提取的方法
1。完整解析信息的标记形式，再提取关键信息。
需要标记解析器，例如：bs4库的标签遍历
优点：信息解析准确
缺点：提取过程繁琐，速度慢
2.。无视标记形式，直接搜索关键信息
需要信息的文本查找函数
优点：提取过程简单，速度较快
缺点：提取结果准确性与信息内容相关。
3.。融合以上两种方法（更好）
例如：提取HTMML中的所有URL链接
思路：1）搜索到所有《a》标签
2）解析《a》标签格式，提取href后的链接内容。

酒千殇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫（四）：信息标记与信息提取

一.信息标记的方式HTML是WWW(world wide web)上,通过预定义标签组织信息的方式，将声音，图像，视频等超文本信息嵌入到文本中。三种主要组织信息方式的对比方式说明应用领域XML最早的通用信息标记语言，可扩展性好，但繁琐Internet上信息的交互与传递JSON信息有类型，适合程序处理(js)，比XML简洁移动应用云端和节点的信息通信，无注释...
复制链接

扫一扫