周工作总结 一

1概述

本周主要是阅读了一些英文文献,加深对信息抽取工作的理解。在查阅的数十篇中文文献中,除了之前作为参考的一篇会议论文(经仔细推敲其算法很不严谨),比较接近我的任务目标同时叙述详尽的就只有文献[1],其主要内容是以树编辑距离算法为基础,进行网页聚类,模板抽取,数据提取的工作。我在刚开始阅读[1]时理解起来比较困难,同时对其算法的优劣性缺乏认识,之后仔细阅读了一些相关的英文论文,思路才逐渐明朗。

2 任务分析
我的任务是编写基于模板的全自动网页信息抽取系统,大体需要分以下几个步骤:网页整理,(网页分类),网页聚类,模板提取,数据记录提取。

2.1 网页整理
网页整理的目标是,将编码统一转化为UTF8,去除注释与<script>、<style>标签,修复不合法的Tag(主要是<br>),使其满足xhtml规范,最后得到完整的DOM树。

预计修复标签使用Jtidy,解析DOM树使用HtmlParser。需要对这两个开源库进行进一步研究。

值得欣慰的是通过观察可以看出绝大多数主流网站都采用XHTML规范编写,同时也发现有个别网站没有严格遵守。

2.2 网页分类
网页分类主要是辨别主题类页面和导航类页面。后者不做处理。可以考虑通过比较超链接内的Text占整篇文档中Text比重来辨别。

这部分工作可暂时不做。

2.3 网页聚类
之前这一部分一直令人头痛。一要考虑聚类算法的时间复杂度,二要考虑相似性比较的时间复杂度,三要考虑模板的动态更新。

文献[1]对BRICH算法和CURE算法进行了比较,提出了利用平均距离的类CURE算法。[6]只是简单地指出利用自底向上的层次聚类法。还有个别文献使用K-means方法。虽然对这些方法的具体算法不熟悉,但是据了解,它们的时间复杂度均超过O(N^2)。还有一些文献没有考虑聚类的问题,默认输入为同模板页面。

在相似性比较方面,几种类树编辑距离算法([1],[5],[6],[7])占据主流,缺点是时间复杂度为O(N1*N2)。也有个别文献采用基于标签的向量模型,并计算余弦值。这种方式时间复杂度较低,但效果不够理想。

幸运的是,今天中午找到了一篇论文([8]),其对六种相似性比较方法,包括自顶向下的树编辑距离([6])、标签向量等与三种聚类方法进行了定量的实验。文献[3]也对几种相似性比较算法做了定量试验。最后可以得出结论是利用最小距离法进行聚类可以较好的满足要求。此外有几种相似性比较算法虽然进行聚类时性能出众,但是考虑到在模板提取时没有好的方案,所以我决定仍然采用文献[9]种的一种近似树编辑距离算法。同时文献[9]在模板的更新过程实质上也利用了最小距离法的思想。

2.4 模板提取
模板提取方面主要采用类似文献[9]的方式,同时增加文本数据比较的环节。首先,与[4],[5]类似,寻找页面中的重复子树(比如商品列表,搜索引擎返回页),并将其合并,形成初始wrapper。Wrapper的特点是包含?、*、N等通配符结点,比如重复的兄弟结点被合并为N结点,具体的数学定义参照[9]。之后的页面与wrapper比较相似性,认定为同模板页面后与初始wrapper合并,在提取过程中模板不断被更新。

2.5 记录提取
设定一个阀值n,一个模板至少由n个页面合并而成才进行抽取。抽取的记录分以下几类:单数据记录(通过相似页面的文本数据比较发现),多数据记录(由单页面重复子树合并发现),正文数据(重复<p>结点下的文本数据直接合并)。

3 本周阅读的文献
[1]Web信息自动抽取技术研究

[2]A Survey of Web Information Extraction Systems

[3]A short survey of document structure similarity algorithms[4]Mining Data Recods in Web Pages

[5]web data extraction based on partial tree alignment

[6]Automatic Web news extraction using tree edit distance

[7]Web Information Extraction by HTML Tree Edit Distance Matching

[8]Clustering Template Based Web Documents

[9]Joint Optimization of Wrapper Generation and Template Detection

[10]Using Clustering and Edit Distance Techniques for Automatic Web Data Extraction

[11]VIPS:a Vision-based Page Segmentation Algorithm

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值