搜索引擎<原理、技术与系统>读书笔记（5）

最新推荐文章于 2021-11-14 22:47:51 发布

kofshower

最新推荐文章于 2021-11-14 22:47:51 发布

阅读量789

点赞数

分类专栏： baidu生活文章标签：搜索引擎读书 html 正则表达式算法 list

本文链接：https://blog.csdn.net/kofshower/article/details/6779258

版权

baidu生活专栏收录该内容

11 篇文章 0 订阅

订阅专栏

网页净化
元数据提取
- 早期的方法：针对某一类具体网页，人工提取该类网页的内容组织模式。然后，信息提取系统根据该模式从属于该类的网页中提取相应的内容[Hammer, et al.,1997]，[Ashish and Knoblock,1997]。（正则表达式）
- 启发式规则：
  - DocView模型
    - 网页标识是对Web上网页的唯一性标识，在DocView模型中使用网页的URL作为网页标识。
    - 网页类型
      - 主题网页（topic）
        网页中通过文字描述了一件或多件事物，是有一定主题的；如一张具体的新闻网页就是典型的有主题网页。
      - Hub网页（hub）
        专门用来提供网页导向的网页，因而是超链聚集的网页；如门户网站的首页就是典型的Hub网页。
      - 图片网页（pic）
        网页的内容是通过图片的形式体现的，其中文字很少，仅仅是对图片的一个说明；如某个机构包含图片的人员介绍网页就是典型的图片网页。
    - 内容类别是从语义上对网页的内容进行分类
    - 标题、关键词和摘要
    - 正文是原始网页中真正描述主题的部分，因此，在某些具体应用中用正文代替原始网页更为合理。
    - 相关链接是指在本网页中指向与正文内容相关的网页的链接，而非广告等噪音链接。将正文和相关超链重新组合就得到了净化后的网页。
  - 网页的表示
    - 抽象表示
      - 分类
        规划网页布局的标签：在视觉上，网页是由若干提供内容信息的区域（我们称之为内容块）组成的，而内容块是由特定的标签规划出的（称之为容器标签），而且容器标签是允许嵌套的。常用的容器标签有<table>、<tr>、<td>、<p>、<div>等。因此，依据容器标签可以将网页表示成树状结构，虽然该树状结构描述的是网页内容的布局结构，但布局信息中隐含着网页内部各部分内容的相关性信息。
        描述显示特点的标签：在HTML标准中定义了一套标签来规范其包含的内容的显示方式（比如：字体变大、粗体、斜体），我们称之为重要信息标签。常用的重要信息标签有<b>、<I>、<strong>、<h1>、<h2>等十几种。这类标签中的内容通常是网页作者希望引起读者注意的，因此隐含着一定的内容重要性信息。
        超链相关的标签：超链是HTML网页区别于传统文本的最明显的特点之一，表示着网页间的关系，因此整理出超链标签并作合理的分析可以挖掘出网页间的内容相关性信息。
      - 构造标签树
        给定一篇HTML网页，顺序整理出容器标签就得到了对应的标签树的框架。而后，整理每个内容块（对应标签树的一个结点）中的
        超链标签、图片标签和重要信息标签，并在标签树中对应的结点中记录下来。这样就构造了一棵基本的标签树。对上述基本标签树信息作适当的分析、整理就可以得到内容分析过程中需要的一些描述信息。譬如，依据内容块中词项数与图片数和超链数的比值可以为每个内容块设定一个类型，分为topic、hub、pic三种。如果内容块中词项数与图片数的比值小于某个阈值，该内容块就是 pic 类型，如果内容块中作为anchor text出现的词项数与该块中总词项数的比值小于某个阈值，该内容块就是hub类型，否则为topic类型。这样，标签树中每个结点都有类型和属性集两组描述性信息，以及超链集和重要标签集等数据信息。link_list 表示该内容块中超链集合；weighty_tag_list 表示该内容块中重要标签集合。
        量化表示
        权值传递规则
        计算特征项权值
        处理高频无关词
  - 提取DocView模型要素的方法
    - 网页类型判断方法：在构造标签树时，依据内容块中词项数与图片数的比值以及内容块中词项数与 anchor text 中词项数的比值将网页中的内容块分为 topic、hub 和pic 三个类型，基于内容块的类型，我们可以使用网页中间区域hub内容块包含的词项数与网页中间区域词项数的比值来判断网页是否为hub类型。同理，使用网页中间区域 pic 内容块包含的词项数与网页中间区域词项数的比值可以判断网页是否为pic类型。实际效果表明，该方法判断网页的类型是较为准确的。
    - 有主题网页的信息提取算法：
      - 正文规则：有主题网页中，如果一个内容块是topic类型的，则该内容块中的内容为正文的一部分。
      - 内容类别：关键词提取过程中已经得到了正文的特征向量，于是直接使用正文特征向量进行分类可以节省网页量化过程的时间开销，这正是将共性需求的信息一次性提取的优势之一。
      - 标题：针对没有标题或者使用上述无描述能力标题的网页，我们从关键词集合中选取权值最高的作为网页的新标题。
      - 摘要：摘要的提取基于这样的事实：文章都是按内容分段组织的；阅读者通常是根据一段文章中某几个子句来得到该段文章的大意，而这几个子句的选择通常是通过扫描某些关键词来定位的。因此，如果可以自动识别文章中不同的段落，那么基于上述得到的关键词，就可以得到能够模拟读者浏览文章过程的摘要提取算法。
      - 识别文章段落：HTML网页中的结构信息是对网页版面的描述，这使得自动识别文章的不同段落成为可能。
      - 基于段落的语句提取：以正文的段落为单位，在各个段落中定位网页的关键词并累加关键词的权值作为关键词所在语句的权值；最后在每个段落中限量选取权值大的语句，就组成了网页的摘要。
      - 相关超链：
        基于anchor text的超链选取策略
        基于分类的超链选取策略
      - 关键词
        1：for 标签树中的每个正文块CBi do 2： if 该块中存在重要信息标签信息 then 3：检查重要信息标签中的内容是否在噪音词集合中出现 4： if 不在噪音词集合 then // 为真实重要信息 5：将重要信息标签的影响因子累加到该内容块的影响因子上 6： end if 7： if 该内容块的影响因子大于1 then 8：提出的权值传递策略在标签树中传递权值 9： end if 10： end if 11：end for 12：计算各个特征项的权值

kofshower

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
搜索引擎<原理、技术与系统>读书笔记（5）

网页净化元数据提取早期的方法：针对某一类具体网页，人工提取该类网页的内容组织模式。然后，信息提取系统根据该模式从属于该类的网页中提取相应的内容[Hammer, et al.,1997]，[Ashish and Knoblock,1997]。（正则表达式）启发式规则：
复制链接

扫一扫

专栏目录