信息组织与提取
一、信息标记
HTML:
通过预定义的<>..</>标签形式来组织不同类型的信息
信息标记的种类有三种 Xml,JSON,YAML
Xml: 扩展标记语言,与html格式很像
通过
标签形式来构造所有的信息,如果标签中有内容时我们用一对标签来表达: <name>...</name>
如果标签中没有内容时,我们用一对尖括号来表达<name/>
同时可以增加注释:<! --注释-- >
JSON:
采用
有类型键值的方式:“key”:"value"
如果对应的值的部分有多个,则采用方括号: "key": ["value1',"value2'] 并且中间用逗号隔开
同时键值对可以进行嵌套,此时采用大括号: “key":{"subkey":"subvalue"}
YAML:
无类型键值对,采用缩进的方式表示所属关系,这一点和python很像
|表示整块内容,#表示注释的内容
key:value
key:
-value1
-value2 #横线表示并列
key:
subkey:subvalue
二、信息提取的一般方法
信息提取是指从信息标记的文本中提取所需要的内容
有三种:
1.根据标记形式,利用bs4库遍历标签树的方法先解析出标记形式再提取关键字
2.不关注标记形式,采用文本查找函数,直接搜索关键字
3采用融合的方式,结合形式解析和搜索方法提取关键信息
xml J