周工作总结 二

这两天没什么实质进展。主要是阅读了HtmlParser的文档和部分源码,加深了理解。写了两个方法,用于将一篇文档中的<script>标签和<style>标签除去,等待进一步分析。
之前脑子一直很乱,原因是需求没有定好。基于分析html结构的信息抽取的抽取结果是什么?去噪页面?新闻正文?列表数据记录?数据项?之前看过的几篇论文任务目标各不相同,以至于让我对自己要实现的内容很迷茫。
今天又把那几篇文章重点看了一下,思路基本确定了,就是必须对部分网页进行标注。文献Joint Optimization of Wrapper Generation and Template Detection中对problem的定义:
 Given a set of labeled DOM trees D parsed from pages of a particular website, a group of wrappers (w1, w1, ..., wn) should be learned  from D.   And the target  is to maximize the overall extraction accuracy P  when generated wrappers are tested on another DOM-tree set D’ that comes from the same website.

我的目标是:
对 给定n个经过标注的异构网页,生成n个包装器。对于给定的一个网页集M,将其中的每个网页分别与上述包装器匹配,匹配结果相似度小于θ的对标注项相应的数据进行抽取。无论是否成功抽取,都将M中的网页按模板结构聚类,对于任一组网页至少自动生成一个包装器。
  <script type="text/javascript"></script>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值