毕设工作
文章平均质量分 65
scottxp
某废柴
展开
-
网页信息抽取阶段性成果
输入为一组相似页面,输出为模板与抽取结果下面是其中一个页面的自动抽取结果,语义标注也是自动完成的 源网页地址:http://item.taobao.com/auction/item_detail-0db2-b0d5cc590d53cdbea63e8376926450e6.htm 抽取结果: 标题 93GS奢华独显本神舟优雅HP原创 2009-07-21 11:10:00 · 1271 阅读 · 0 评论 -
网页信息抽取阶段性成果(续)
有些文本项,无法自动判断是否为内容项还是导航项,比如“此宝贝与实际相符”等,必须人工标注。 之后人工对模板进行修正,下面是修正后再抽取的结果: 标题 93GS奢华独显本神舟优雅HP650D5售3998-淘宝网 宝贝详情 93GS奢华独显本神舟优雅HP650D5售3998 一 口 价原创 2009-07-21 11:15:00 · 936 阅读 · 0 评论 -
周工作总结 一
1概述本周主要是阅读了一些英文文献,加深对信息抽取工作的理解。在查阅的数十篇中文文献中,除了之前作为参考的一篇会议论文(经仔细推敲其算法很不严谨),比较接近我的任务目标同时叙述详尽的就只有文献[1],其主要内容是以树编辑距离算法为基础,进行网页聚类,模板抽取,数据提取的工作。我在刚开始阅读[1]时理解起来比较困难,同时对其算法的优劣性缺乏认识,之后仔细阅读了一些相关的英文论文,思路才逐渐明朗。原创 2009-06-21 22:52:00 · 1352 阅读 · 0 评论 -
周工作总结 二
这两天没什么实质进展。主要是阅读了HtmlParser的文档和部分源码,加深了理解。写了两个方法,用于将一篇文档中的标签和标签除去,等待进一步分析。之前脑子一直很乱,原因是需求没有定好。基于分析html结构的信息抽取的抽取结果是什么?去噪页面?新闻正文?列表数据记录?数据项?之前看过的几篇论文任务目标各不相同,以至于让我对自己要实现的内容很迷茫。今天又把那几篇文章重点看了一下,思路基本确定了,就是原创 2009-06-24 17:46:00 · 669 阅读 · 0 评论 -
真·周工作总结 二
1.工作总结本周编写了去除冗余标签与文本节点和类树编辑距离算法。但是通过阅读HTMLParser的文档和源码发现,之前没有很好的利用HTMLParser自身的特点(如,HTMLParser对DOM树的节点提供了visitor模式的基本实现),以至于代码比较冗长、难看。下周考虑重写这些代码。本周遇到的最大困难是文献[1]提出的模板生成算法的实现,在这个问题上卡了好几天。这原创 2009-06-29 00:27:00 · 1007 阅读 · 1 评论 -
htmlparser 处理标签的一个bug
众所周知,Htmlparser本身有一些小bug,而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点,主要是扩展性强,其利用的设计模式值得学习。由于时间的关系,现在项目还是使用Htmlparser,以后有时间会对nekohtml进行研究。 今天遇到的bug来自于对的解析。假如一个网页的部分代码如下,那么HtmlParser是原创 2009-07-05 23:53:00 · 3957 阅读 · 4 评论 -
对本系统后续工作者的一点建议
对后续工作者的一点建议 build 0910111. 熟悉HtmlParser Java用于解析网页的开源库主要有HtmlParser和NekoHtml,模拟浏览器自动测试的有HtmlUnit,真正解析js或提取dom节点的视觉信息还是靠Mozilla的浏览器。 NekoHtml的效率和发展状况更好,但是实践表明HtmlParser是可以满足信息抽取任务的。HtmlParser结构比较好原创 2009-10-11 19:28:00 · 1396 阅读 · 0 评论 -
Web信息自动/半自动抽取系统——演示系统
程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行 实现以下功能: 1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨) 2.自动提取模板,同时可以人工修正(提供比较方便的编辑器) 3.自动标注语义(仅针对产品信息页面) 4.自动抽取数据,输出为xml文件 点击进入下载页面 抽取系统图示:原创 2009-10-18 01:21:00 · 1830 阅读 · 8 评论