java vips 算法_VIPS:基于视觉的Web页面分页算法[转]

本文介绍了VIPS算法,一种用于Web页面语义分块的技术,旨在提高Web信息提取的准确性。VIPS利用视觉提示和DOM树分析,通过检测页面分割条构建语义结构,实现层次化的页面分割。该算法首先提取页面块,然后检测分隔条,最终重构语义块。每个语义块的DOC值表示内容的关联性,用于控制分割的精细程度。VIPS适用于Web信息访问、搜索引擎和移动终端的网页适配,提供更精确的Web信息提取和链接分析。
摘要由CSDN通过智能技术生成

VIPS:基于视觉的Web页面分页算法

1.问题的提出

目前,随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。Web 作为信息技术的载体已成为人们重要的工作、学习、生活、娱乐工具。Web的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。 但是如何去获取这些Web信息为我们所用则是大家面临的共同问题。在最基本的层次上,整个Web网络就是由无数的Web页面而构成,因此如果获取了这些 Web页面就相当于获取了Web信息内容。事实上,目前的很多Web信息获取技术都是基于这种理论。

但是把整个页面作为一个基本的信息获取单位并不是太合理,尽管用户通常会把一些相关的内容放在同一页面中,但是大多数情况下,一个页面中通常会包含不止一类的主题,比如在新浪的页面中,可能包含体育类信息,可能包含健康类信息,也可能包含广告、导航链接等信息。这些信息分布在整个页面的不同位置。因此,如果要更准确的获取Web信息,我们必须能够对给定的Web页面进行更进一步的语义提取。

Web页面的语义提取在很多方面都有应用。比如,在Web信息访问中,为了克服关键字搜索所带来的局限性,许多研究者开始使用数据库技术,构建包装器将Web数据进行结构化处理。在构建包装器的过程中,将Web文档分割为一定数目的数据块是首要的工作。目前的工作大多数停留在使用自适应的方法上。如果我们能够获取Web页面的语义内容结构信息,那么构建包装器的过程就非常的简单,当然语义信息也就很容易提取出来。

语义块的提取另外一个应用场合就是搜索引擎。对于搜索引擎而言,链接分析是一个极为重要的工作。目前,对于大部分的搜索引擎而言,链接分析算法的基本前提假设就是如果两个页面之间存在链接关系,那么这两个页面整体上肯定存在着一定的关系。但是在大部分情况下,从页面A到页面B的链接仅仅意味着页面A的某部分与页面B的某部分之间可能存在一定的关系。目前的很多算法比如PageRank以及HITS都是基于前面的假设。把链接关系定义在两个完整的页面之间与定义在两个页面的某部分之间相比,则更粗糙一些。因此对于搜索引擎而言,如果要更准确的获取链接的关系,把一个完整页面分割为多个语义块是一个必须的工作。 目前已经有一些工作针对这方面进行展开。不过这些工作都是基于DOM树分析页面的结构。但是DOM树并不能完全反映页面的语义结构,因此这种做法还存在一定的缺陷。

Web页面的语义分块另外一个潜在的用途就是移动终端访问互联网。目前大部分的Web页面都是针对台式机而设计的,由于移动设备通常屏幕较小,计算能力有限,因此这些页面并不适合移动设备直接访问。目前通常通过两种手段来解决这种问题:或者通过服务器进行页面转换或者使用网页缩略图。前者首先将用户访问的页面进行分页和转换,然后将分页的结果提交给移动设备;后者则是将整个Web页面生成缩略页面,整个页面被分割为数目不等的区域,用户如果对特定区域感兴趣,则可以再次访问该区域的内容。通过这两个策略,基本可以完成移动终端访问互联网的任务,但是核心内容还是如何对页面进行语义分割。

如果对Web页面进行有效的分页,目前已经很多工作展开。[Chakrabarti etal.2002]致力于从HTML DOM树中提取出结构化信息。不过由于HTML语法的灵活性,目前大部分的网页都没有完全遵循W3C规范,这样可能会导致DOM树结构的错误。更重要的是,DOM树最早引入是为了在浏览器中进行布局显示而不是进行Web页面的语义结构描述。比如,即使DOM树中两个结点具有同一个父结点,那么这两个结点在语义上也不一定就是有联系。反之,两个在语义上有关系的结点却可能分布在DOM树的不同之处。因此仅仅通过分析DOM树并不能完全获取Web页面的语义信息。

从人类的角度来看,当一个用户观察Web页面的时候,它总是会自然而然的把一个语义块作为一个单一对象来看待,而不会管Web页面的内部结构是如何描述的。 通常情况下,在分辨语义块的时候,用户会使用一些视觉因素来进行帮助,比如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等等。因此如果充分的使用Web页面的视觉提示,并结合DOM树进行页面语义分块,则可以弥补仅使用DOM树所带来的一些缺憾。

在论文中,我们提出了VIPS(Vision-based page segmentation)算法用以提取给定网页的语义结构。这种语义结构是层次性的结构,在该结构中,每一个结点代表一个语义块。每一个语义块都定义一 个DOC值来描述该语义块内部内容的关联性。DOC的值越大,则表明语义块内部的内容,它们之间的联系越紧,反之越松散。VIPS算法充分利用了Web页面的布局特征:它首先从DOM树中提取出所有的合适的页面块,然后根据这些页面块检测出它们之间的所有的分割条,包括水平和垂直方向。最后基于这些分割条,Web页面的语义结构将被重新构建。对于每一个语义块又可以使用VIPS算法继续分割为更小的语义块。因此整个VIPS算法是自顶向下,非常高效的。

2.相关工作

忽略不介绍。

3.Web页面的基于视觉的内容结构描述

与[chen et al. 2001]类似,VIPS算法中首先也定义了“基本对象”的概念,通常DOM树上的叶子结点被定义为基本对象,因为这些结点已经不能再被继续分割了。在本论文中,我们首先引入了基于视觉的内容结构ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值