如何从Web页面中获取结构化列表内容

最新推荐文章于 2023-09-23 15:12:26 发布

玛雅人靠谱

最新推荐文章于 2023-09-23 15:12:26 发布

阅读量1.1k

点赞数

文章标签： web Web WEB 搜索引擎数据挖掘算法网络爬虫

本文链接：https://blog.csdn.net/dayoou/article/details/8268372

版权

传统搜索引擎的设计中，有效内容抽取是一个非常重要的技术目标。例如：网络爬虫在爬行时需要抽取有效的链接，并进行分析，以便对目标网站进行深度或广度的内容抓取；更为普遍的应用场景是数据索引时，需要从数据中剔除干扰内容，而只保留主要内容进行索引，否则会严重影响搜索的准确性。

而在实时搜索引擎中，对内容抽取技术更加依赖，也提出了更加多的要求。相比于传统搜索引擎，其最大的特点在于实时性，这就要求在数据抓取和索引过程中不能进行过于耗时的计算。大有网其实就是一个披了阅读外衣的实时搜索引擎，因此在设计之初就着重考虑了内容抽取技术的实现。

目前在WEB数据的内容抽取领域，大致包括以下几种技术：

1）基于规则的内容抽取；

2）基于统计学/神经网络技术的自动抽取规则挖掘;

3）基于封装器的半自动化内容抽取;

4）视觉抽取;

经过研究、分析、以及在实际中的应用，发现这些技术或多或少的存在一些弊端，不能适用于全部抽取情景，很显然，它们也不是银弹。因此我们决定根据web页面的特征，划分成不同的类型，再根据不同类型采取不同的抽取策略，逻辑解构如下：

分类抽取结构

下面重点说一说列表抽取器的设计思路.

一个WEB页面通常不仅仅包含主要的内容, 还包含很多额外添加的内容, 比如广告、导航条、辅助内容、页脚链接等。这些附加的内容对一个人类浏览者来说，并不是一个严重的问题，人脑可以很容易的分辨出来哪一部分是主要内容，哪一部分是次要内容。而对于计算机程序来说，这就是一个很严重的问题，过多的干扰信息的存在，会极大的影响抽取的准确性。我们可以看一个典型的WEB列表页面：

典型的列表页面

这个页面中，只有红色框中的部分是有效内容，其他部分都是附加信息，对于抽取程序来说，这个部分就是干扰信息。

列表页面具备这样一些特征，这也是我们对于列表页面的判定依据：

1）在列表页中，列表部分的内容比重要偏大；

2）列表条目的结构的形式基本一致, 并且条目的内容长度较为平均；

3）列表条目的数量基本在一个限定的范围内，比如5-10n；

4）列表条目在结构上都在同一个容器中；

5）列表条目中很有可能同时包含图片、链接、文字；

有了上面的一些事实依据，列表抽取转化成了另一项任务：在一个WEB页面中根据特征的限定寻找最为匹配的结构。具体实现如下：

1. 预处理: 将目标WEB页面整理成标准的DOM结构

互联网上的web页面很大一部分存在结构问题，不能直接解析成DOM文档。因此需要整理，并在整理过程中清理掉毫无用处的一些标签，包括script、style、link、meta、iframe等，这样处理后，我们会得到一个标准的、最简的DOM树结构。我们可以使用JavaCC来自定义个解析器来拾取HTML树结构，也可以使用一些开源的项目做到这一点，例如： HtmlCleanerhttp://htmlcleaner.sourceforge.net/.

2. 计算: 节点特征值

从根节点开始, 按照一定的规则进行遍历, 并分别计算节点的特征值, 这些特征值包括: 子节点内容均衡度（R）、有效子节点数量（C）、有效子节点平均长度（V）等。R的计算公式为：R = 100 * CLV / LS, 其中 CLV是子节点内容长度的线性方差; LS是当前节点的内容长度.

3. 排序: 选取最优的列表结构

把上一步计算的结果, 按照一定规则进行排序, 选取最优的列表结构。

4. 生成抽取规则

一旦得到最优的列表结构后, 就可以利用一定的算法进行规则发现和生成. 在这里使用的是diff比较算法, 这种算法被普遍使用在文本差异比较上, 我们发现也适用适用于格式化的DOM结构(XML)的比较. 根据差异即可获得结构中变化的部分, 也就很容易生成抽取规则了.

5. 结果: 只包含有效数据

下面的内容是系统产生的结果:

>>> http://file11.mafengwo.net/M00/11/84/....w195.jpeg

>>> /i/723612.html

>>> 大熊小猫玩转全球之【马尔代夫：那片海，美

------------------------------------------------------