信息标记与信息提取方法

一、信息标记的三种形式

1、XML

在这里插入图片描述

  • 空元素的缩写形式:<imgsrc=“china.jpg” size=“10” />
  • 注释书写形式: <!‐‐Thisisacomment,
    very useful ‐‐>

2、JSON

在这里插入图片描述

  • 多值用[,]组织
  • 键值对嵌套用{,}
    在这里插入图片描述

3、YAMML
在这里插入图片描述

  • 缩进表达所属关系
  • “-”表达并列关系
  • “|” 表达整块数据
  • “#” 表示注释

在这里插入图片描述
在这里插入图片描述

二、三种信息标记形式的比较

在这里插入图片描述

三、信息提取的一般方法

方法一:

完整解析信息的标记形式(XML、 JSON、 YAML),再提取关键信息 。

需要标记解析器,例如:bs4库的标签树遍历

  • 优点:信息解析准确
  • 缺点:提取过程繁琐,速度慢

方法二:

无视标记形式,直接搜索关键信息

  • 优点:提取过程简洁,速度较快
  • 缺点:提取结果准确性与信息内容相关

对信息的文本运用查找函数进行查找,例如:bs4库提供的查找方法
<>.find_all(name,attrs,recursive, string, **kwargs)

方法三:(常用)

融合方法:结合形式解析与搜索方法,提取关键信息
需要标记解析器及文本查找函数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值