以下代码demo链接:https://python123.io/ws/demo.html
信息标记的三种形式
信息的标记
1.标记后的信息可形成信息组织结构,增加了信息维度
2. 标记后的信息可用于通信、存储和展示
3. 标记的结构与信息一样具有重要价值
4. 标记后的信息有利于程序理解和运用
HTML的信息标记:HTML通过预定义的<>…</>标签形式组织不同类型的信息
信息标记的三种形式
XML: 指可扩展标记语言,被设计用来传输和存储数据。
XML实例:
JSON:是一种轻量级的数据交换格式,简洁和清晰的层次结构使得 它成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
JSON实例:
YAML :可以简单表达清单、散列表,标量等数据形态。它使用空白符号缩进和大量依赖外观的特色,特别适合用来表达或编辑数据结构、各种配置文件、倾印调试内容、文件大纲。
YAML实例:
(以上图片来自中国慕课 嵩天老师教学视频)
信息提取的一般方法
方法1:
完整解析信息的标记形式,再提取关键信息 。
需要标记解析器 例如:bs4库的标签树遍历 。
优点:信息解析准确
缺点:提取过程繁琐,速度慢
方法2:
无视标记形式,直接搜索关键信息 。
对信息的文本查找函数即可
优点:提取过程简洁,速度较快
缺点:提取结果准确性与信息内容相关
融合方法:
结合形势解析与搜索方法,提取关键信息
需要标记解析器及文本查找函数
实例:提取HTML中所有的URL链接