一、信息标记的三种形式
1、XML
- 空元素的缩写形式:<imgsrc=“china.jpg” size=“10” />
- 注释书写形式: <!‐‐Thisisacomment,
very useful ‐‐>
2、JSON
- 多值用[,]组织
- 键值对嵌套用{,}
3、YAMML
- 缩进表达所属关系
- “-”表达并列关系
- “|” 表达整块数据
- “#” 表示注释
二、三种信息标记形式的比较
三、信息提取的一般方法
方法一:
完整解析信息的标记形式(XML、 JSON、 YAML),再提取关键信息 。
需要标记解析器,例如:bs4库的标签树遍历
- 优点:信息解析准确
- 缺点:提取过程繁琐,速度慢
方法二:
无视标记形式,直接搜索关键信息
- 优点:提取过程简洁,速度较快
- 缺点:提取结果准确性与信息内容相关
对信息的文本运用查找函数进行查找,例如:bs4库提供的查找方法
<>.find_all(name,attrs,recursive, string, **kwargs)
方法三:(常用)
融合方法:结合形式解析与搜索方法,提取关键信息
需要标记解析器及文本查找函数