【论文简读】 Extraction of Flat and Nested Data Records

[论文简读] 《Extraction of Flat and Nested Data Records from Web Pages.》

November 2006 SourceDBLP
Conference: Data Mining and Analytics 2006, Proceedings of the Fifth Australasian Data Mining Conference (AusDM2006), Sydney, NSW, Australia, 29-30 November, 2006, Proceedings

简介

在给定页面的情况下,该技术首先根据视觉线索信息识别数据区域。 然后,它从数据区域中提取每个记录,并根据可视信息(每个记录中包含的数据项的面积和数据项的数量)来识别它是平面记录还是嵌套记录。 

VSAP技术

a)确定最大的矩形。
根据前一步得到的包围矩形的高度和宽度,确定了BODY标签每个子标签的包围矩形的面积。 然后找到这些边界矩形中最大的矩形。 这样做的原因是观察到最大的包围矩形总是包含该web页面中最相关的数据。 这样,通过确定最大矩形,就得到了数据区域的超集。
b)识别最大矩形内的容器。
一旦得到最大的矩形,就会形成一个面积大于最大矩形面积一半的所有包围矩形的集合。 这背后的基本原理是,web页面的最重要数据必须占据web页面的重要部分。 然后找到这个集合中面积最小的边框。 确定这个集合中最小的矩形的原因是最小的矩形只包含数据记录。 这样就得到了一个包含数据区域和一些无关数据的容器。
c)识别该容器中包含数据记录的数据区域
为了从容器中过滤不相关的数据,使用了一个过滤器。 过滤器确定容器中子元素的平均高度。 那些身高低于平均身高的孩子被认定为无关数据,并被过滤掉。过滤的结果是一个数据区域。 图2中web页面的数据区域如图3所示。

基于VSAP技术的改进:ENDR

作者提出了两种类型的数据信息,一种是flat数据,一种是nested数据,大致关系如图所示

clipboard.png

数据记录的提取是基于视觉线索的。 在提出的技术的第一步中,我们确定所有数据记录的高度。 这种方法使用MSHTML解析和呈现引擎,该引擎提供每个数据记录的高度。 数据记录的高度是从HTMLObjectElement的offsetHeight属性中获得的。 接下来,计算记录的平均高度。 所有记录的平均高度提供了每个记录的近似高度,将每个数据记录的高度与平均高度进行比较。 如果子节点的身高大于或等于平均身高,则提取数据记录。

clipboard.png

实验观察表明,嵌套数据记录中的字段数量至少比平面记录多40%(大约)。 将第一个记录中的字段数与下一个记录中的字段数进行比较。 如果字段的数量超过40%,那么它就是一个nested记录,否则就是一个flat记录。 

实验结果

clipboard.png

总结

作者没有说清楚究竟是如何获取得到dom的高宽的信息,而且改进的方法针对性太强了,最后得到超高准确率也不具有参考的意义。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值