信息组织与提取

一、信息标记的三种方法

 

信息的标记:

标记后的信息可形成信息组织结构,增加信息维度

标记后的信息可以用于通信、存储或展示

标记的结构与信息一样具有重要的价值

标记后的信息更利于程序理解和应用

 

信息标记的三种形式:XML JSON YAML

XML:标签

 

JSON :有类型的键值对key:value

"key ":"value "

"key":["value" ,"value" ]

"key":{“subkey":"subkey"}

 

YAML :无类型键值对key:value

缩进表示所属关系

 

二、三种信息标记的比较

XML:Internet上的信息交互与传递

JSON:移动应用云端和节点的信息通信,无注释

YAML:各类系统的配置文件,有注释易读

 

三、信息提取的一般方法

方法一:完整解析信息的标记形式,在提取关键信息

方法二:无视标记形式,直接搜索关键信息(过程简洁速度快,缺点:准确性)

融合方法:结合形式解析与搜索方法,提取关键信息

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,"html.parser")

for link in soup.find_all('a'):

print(link.get('href'))

 

四、基于bs4库的HTML查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型,存储查找的结果

name:对标签名称的检索字符串(可以用正则表达式)(re.compile(' '))

attrs:对标签属性值的检索字符串,可标注属性检索

recursive:是否对子孙全部索引,默认True

string:<>...</>中字符串区域的检索字符串

 

find_all拓展方法

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值