这两天没什么实质进展。主要是阅读了HtmlParser的文档和部分源码,加深了理解。写了两个方法,用于将一篇文档中的<script>标签和<style>标签除去,等待进一步分析。
之前脑子一直很乱,原因是需求没有定好。基于分析html结构的信息抽取的抽取结果是什么?去噪页面?新闻正文?列表数据记录?数据项?之前看过的几篇论文任务目标各不相同,以至于让我对自己要实现的内容很迷茫。
今天又把那几篇文章重点看了一下,思路基本确定了,就是必须对部分网页进行标注。文献Joint Optimization of Wrapper Generation and Template Detection中对problem的定义:
Given a set of labeled DOM trees D parsed from pages of a particular website, a group of wrappers (w1, w1, ..., wn) should be learned from D. And the target is to maximize the overall extraction accuracy P when generated wrappers are tested on another DOM-tree set D’ that comes from the same website.
我的目标是:
对 给定n个经过标注的异构网页,生成n个包装器。对于给定的一个网页集M,将其中的每个网页分别与上述包装器匹配,匹配结果相似度小于θ的对标注项相应的数据进行抽取。无论是否成功抽取,都将M中的网页按模板结构聚类,对于任一组网页至少自动生成一个包装器。
<script type="text/javascript"></script>