数据挖掘-基于dom树的网页属性抽取方法应用

最新推荐文章于 2022-04-28 00:13:38 发布

shunqs

最新推荐文章于 2022-04-28 00:13:38 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘篇算法篇工具篇文章标签：数据挖掘属性抽取 htmlcxx htmlParser Dom数

本文链接：https://blog.csdn.net/shunqs/article/details/84619063

版权

该文介绍了基于DOM树的网页数据抽取技术，特别是在识别新闻网页中文作者方面的应用。通过构建DOM树，结合网页结构、文本和姓名特征，实现候选作者集合的精炼，提高信息抽取的准确性。文章详细阐述了从结构特征、文本特征和姓名特征三个场景中抽取中文作者的步骤，以及利用互信息理论识别真实作者的方法。

摘要由CSDN通过智能技术生成

提纲

一、简介

二、应用举例

三、思想

四、实现

五、html-Dom树特征

一、简介

基于Dom树的抽取技术根据html网页所具有的树形层次结构特征来实现html网页中的数据抽取。其系统通常先把html网页结构按照其中的html标签解析成基于Dom树的层次结构，其次通过某种方法把所要抽取的数据定位在Dom树的某个层次位置上，最终通过自动或半自动的方式生成一个相应的规则表达式(regular expression)形式的抽取规则，通过使用规则将数据从网页中抽取出来。利用基于Dom树的数据抽取的准确率和召回率相对很高，但是基于Dom树的抽取系统的输入往往需要相应的若干示例网页，因此适用于各个不同的知识领域。其缺点是天生对结构性的过分依赖，并且网页结构又经常性的发生变化，因此，使得它在应对网页结构变化时比较被动。

在实际应用中，某些抽取系统借鉴基于实体的信息抽取和基于Dom树的信息抽取两种方法，根据这两种方法优缺点的互补性，很多信息抽取系统有机地结合了这两种信息抽取方法，实现了一种自适应的高效的信息抽取系统(adaptive information extraction)，如Amorphic信息抽取系统；该系统使用基于位置的信息抽取方法对网页进行处理，得到规则表达式形式的抽取器，并进行信息抽取；一旦遇到网页结构发生变化的情况，通过基于Dom树的方法，自动进行抽取器的恢复与修改，进而增强系统的健壮性。

二、应用举例

从新闻网页中正确识别中文作者，必须解决两个关键问题：一是候选中文作者集合的构建；二是真实中文作者的识别。下面详细描述这两个关键问题的解决思路。

1.候选中文作者集合的构建

针对此问题，我们可以先抽取出网页文本，然后利用纯文本的中文姓名识别方法，从网页文本中识别出所有中文姓名构成候选中文作者集合。这种做法的主要缺陷在于，新闻网页中可能有很多中文姓名，这将导致最后获得的候选中文作者集合中存在大量的非作者姓名，为进一步的真实作者识别带来很大代价。

我们在解决这个问题时，充分利用了网页结构特征场景，结合文本特征场景和中文姓名特征场景，使得最后获得的候选中文作者集合很小，大大降低了进一步识别真实作者的代价。

以下总结了我们主要使用的场景：

最低0.47元/天解锁文章

shunqs

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-基于dom树的网页属性抽取方法应用

提纲一、简介二、应用举例三、思想四、实现五、html-Dom树特征一、简介基于Dom树的抽取技术根据html网页所具有的树形层次结构特征来实现html网页中的数据抽取。其系统通常先把html网页结构按照其中的html标签解析成基于Dom树的层次结构，其次通过某种方法把所要抽取的数据定位在Dom树的...
复制链接

扫一扫

专栏目录