周工作总结二

最新推荐文章于 2020-05-22 22:59:37 发布

scottxp

最新推荐文章于 2020-05-22 22:59:37 发布

阅读量669

点赞数

分类专栏：毕设工作文章标签：工作 optimization generation wrapper website 文档

本文链接：https://blog.csdn.net/scottxp/article/details/4295346

版权

毕设工作专栏收录该内容

7 篇文章 0 订阅

订阅专栏

这两天没什么实质进展。主要是阅读了HtmlParser的文档和部分源码，加深了理解。写了两个方法，用于将一篇文档中的<script>标签和<style>标签除去，等待进一步分析。
之前脑子一直很乱，原因是需求没有定好。基于分析html结构的信息抽取的抽取结果是什么？去噪页面？新闻正文？列表数据记录？数据项？之前看过的几篇论文任务目标各不相同，以至于让我对自己要实现的内容很迷茫。
今天又把那几篇文章重点看了一下，思路基本确定了，就是必须对部分网页进行标注。文献Joint Optimization of Wrapper Generation and Template Detection中对problem的定义：
Given a set of labeled DOM trees D parsed from pages of a particular website, a group of wrappers (w1, w1, ..., wn) should be learned from D. And the target is to maximize the overall extraction accuracy P when generated wrappers are tested on another DOM-tree set D’ that comes from the same website.

我的目标是：
对给定n个经过标注的异构网页，生成n个包装器。对于给定的一个网页集M，将其中的每个网页分别与上述包装器匹配，匹配结果相似度小于θ的对标注项相应的数据进行抽取。无论是否成功抽取，都将M中的网页按模板结构聚类，对于任一组网页至少自动生成一个包装器。
<script type="text/javascript"></script>