数据挖掘-基于dom树的网页属性抽取方法应用

该文介绍了基于DOM树的网页数据抽取技术,特别是在识别新闻网页中文作者方面的应用。通过构建DOM树,结合网页结构、文本和姓名特征,实现候选作者集合的精炼,提高信息抽取的准确性。文章详细阐述了从结构特征、文本特征和姓名特征三个场景中抽取中文作者的步骤,以及利用互信息理论识别真实作者的方法。
摘要由CSDN通过智能技术生成

提纲

     一、简介

     二、应用举例

     三、思想

     四、实现

     五、html-Dom树特征

 

一、简介

       基于Dom树的抽取技术根据html网页所具有的树形层次结构特征来实现html网页中的数据抽取。其系统通常先把html网页结构按照其中的html标签解析成基于Dom树的层次结构,其次通过某种方法把所要抽取的数据定位在Dom树的某个层次位置上,最终通过自动或半自动的方式生成一个相应的规则表达式(regular expression)形式的抽取规则,通过使用规则将数据从网页中抽取出来。利用基于Dom树的数据抽取的准确率和召回率相对很高,但是基于Dom树的抽取系统的输入往往需要相应的若干示例网页,因此适用于各个不同的知识领域。其缺点是天生对结构性的过分依赖,并且网页结构又经常性的发生变化,因此,使得它在应对网页结构变化时比较被动。

在实际应用中,某些抽取系统借鉴基于实体的信息抽取和基于Dom树的信息抽取两种方法,根据这两种方法优缺点的互补性,很多信息抽取系统有机地结合了这两种信息抽取方法,实现了一种自适应的高效的信息抽取系统(adaptive information extraction),如Amorphic信息抽取系统;该系统使用基于位置的信息抽取方法对网页进行处理,得到规则表达式形式的抽取器,并进行信息抽取;一旦遇到网页结构发生变化的情况,通过基于Dom树的方法,自动进行抽取器的恢复与修改,进而增强系统的健壮性。

二、应用举例

从新闻网页中正确识别中文作者,必须解决两个关键问题:一是候选中文作者集合的构建;二是真实中文作者的识别。下面详细描述这两个关键问题的解决思路。

     1.候选中文作者集合的构建

针对此问题,我们可以先抽取出网页文本,然后利用纯文本的中文姓名识别方法,从网页文本中识别出所有中文姓名构成候选中文作者集合。这种做法的主要缺陷在于,新闻网页中可能有很多中文姓名,这将导致最后获得的候选中文作者集合中存在大量的非作者姓名,为进一步的真实作者识别带来很大代价。

我们在解决这个问题时,充分利用了网页结构特征场景,结合文本特征场景和中文姓名特征场景,使得最后获得的候选中文作者集合很小,大大降低了进一步识别真实作者的代价。

以下总结了我们主要使用的场景:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值