HtmlParser
digyso888
You can do it,trust yourself.
展开
-
HTMLParser使用详解(1)- 初始化Parser
http://www.baizeju.com/html/HTMLParser/200807/04-118.html 在研究搜索引擎的开发中,对于HTML网页的处理是核心的一个环节。网上有很多开源的代码,对于Java来说,HTMLParser是比较著名并且得到广泛应用的一个。HTMLParser的主页是http://htmlparser.sourceforge.net/,最后的更新是2006转载 2008-10-28 23:01:00 · 895 阅读 · 0 评论 -
HTMLParser使用详解(3)- 通过Filter访问内容
http://www.baizeju.com/html/HTMLParser/200807/07-121.html HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。(一)Filter类顾名思义,Filter就是对于结果进行过滤,取得需要的内容。HTMLParser在org.htm转载 2008-10-28 23:03:00 · 561 阅读 · 0 评论 -
HTMLParser使用详解(2)- Node内容
http://www.baizeju.com/html/HTMLParser/200807/04-119.html HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。请看Node的定义:public interface Node extends Cloneable;Node中包含的方法有几类:对于树型结构进行遍历的函数,这些函数最容易理解:Node g转载 2008-10-28 23:02:00 · 584 阅读 · 0 评论 -
从HTML中攫取你所需的信息
http://www-128.ibm.com/developerworks/cn/java/l-html-parser/本文并非想通过分析HTML的语法然后从中解析出数据,这样做实现困难而且没有什么实际应用的意义,或者应该这样说:我们并不想自己去实现一个HTML语法的分析器。我们要做的仅仅是从HTML中提取我们所需的信息。不同于XML这种对格式要求非常严格的标志语言,HTML在推出时并没有转载 2008-10-29 01:32:00 · 655 阅读 · 0 评论 -
HTMLParser使用详解(4)- 通过Visitor访问内容
http://www.baizeju.com/html/HTMLParser/200807/07-123.html HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。下面介绍使用Visitor访问内容的方法。4.1 NodeVisitor从简单方面的理解,Filter是根据某种条件转载 2008-10-28 23:04:00 · 476 阅读 · 0 评论 -
HtmlParser初探--使用Nodefilter和Visitor进行网页分析
最近在做html页面转化成jsf页面的工作,尝试过使用正则表达式、dom4j等方法,都没有取得很好的结果。(html-->jsf会另写一篇文章进行讨论)现在在使用htmlparser对html进行解析,对于html页面的解析htmlparser是一个功能比较强大的工具(相关下载:http://sourceforge.net/projects/htmlparser/)。以下是经常使用的对页面解析转载 2008-10-28 23:05:00 · 707 阅读 · 1 评论 -
html截取摘要并补齐标签(htmlparser)一
http://scnujie.javaeye.com/blog/232743 从html里面截取摘要关键在于在截取的时候不能截断它里面的标签,所以就要想法让它在截取的时候能截全标签:方法是写一个算法让它在截取所指定长度时只计算标签 外面文本的数量而标签里面的长度不计算在内,这样才能以指定的长度截取到不会断节的标签: 下面就是这个小算法(见笑了): Java代码 pu转载 2008-10-30 01:39:00 · 1082 阅读 · 0 评论 -
html截取摘要并补齐标签(htmlparser)二
http://scnujie.javaeye.com/blog/232745 另外一个关键点就在于补齐截取出来的标签,而在这之前你可能需要面对里面的一些不常用甚至没见过的标签,所以你就需要扩展标签,而这时一个叫htmlparser的开源包 则可以帮得上忙了,它里面定义了一些常用的标签你可以在读取出来后它会帮你自动补齐,但是面对一些它里面没有的标签要怎么办呢,这时你可以自己再扩展出一些属于你转载 2008-10-30 01:41:00 · 1351 阅读 · 0 评论