一、信息标记的三种方法
信息的标记:
标记后的信息可形成信息组织结构,增加信息维度
标记后的信息可以用于通信、存储或展示
标记的结构与信息一样具有重要的价值
标记后的信息更利于程序理解和应用
信息标记的三种形式:XML JSON YAML
XML:标签
JSON :有类型的键值对key:value
"key ":"value "
"key":["value" ,"value" ]
"key":{“subkey":"subkey"}
YAML :无类型键值对key:value
缩进表示所属关系
二、三种信息标记的比较
XML:Internet上的信息交互与传递
JSON:移动应用云端和节点的信息通信,无注释
YAML:各类系统的配置文件,有注释易读
三、信息提取的一般方法
方法一:完整解析信息的标记形式,在提取关键信息
方法二:无视标记形式,直接搜索关键信息(过程简洁速度快,缺点:准确性)
融合方法:结合形式解析与搜索方法,提取关键信息
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('a'):
print(link.get('href'))
四、基于bs4库的HTML查找方法
<>.find_all(name,attrs,recursive,string,**kwargs)
返回一个列表类型,存储查找的结果
name:对标签名称的检索字符串(可以用正则表达式)(re.compile(' '))
attrs:对标签属性值的检索字符串,可标注属性检索
recursive:是否对子孙全部索引,默认True
string:<>...</>中字符串区域的检索字符串
find_all拓展方法