HtmlParser
liuxinglanyue
这个作者很懒,什么都没留下…
展开
-
htmlparser使用指南(转)
需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一下htmlparser的使用,有空再研究nekoh...原创 2010-11-16 21:58:04 · 119 阅读 · 0 评论 -
HTMLParser 解析html字符串,提取纯文本
import org.htmlparser.Parser;import org.htmlparser.visitors.TextExtractingVisitor;public class Test {public static void main(String[] args) throws Exception {String sss = "<div class='ti...原创 2010-11-17 16:13:33 · 319 阅读 · 0 评论 -
用htmlparser分析并抽取正文
转:http://hannibal730816.iteye.com/blog/149493我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西 就会惨不忍睹.根本就没有使用价值 在做正文抽取模块之前我曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.我挨个做了分析 首先配置摸版是不太现实的,因为我在搜索技术资...原创 2010-12-01 14:00:08 · 103 阅读 · 0 评论 -
htmlparser分析网页链接时的问题
转:http://gbfd2012.iteye.com/blog/685005利用htmlparser在解析网页的url链接时,我们想提取指定标签下的链接。例如:div id=wrap下的链接,可以通过下面代码实现: Parser parser = new Parser(url);NodeFilter nodefilter1=new AndFilter(new TagNameFi...原创 2010-12-04 20:42:22 · 91 阅读 · 0 评论 -
htmlparser的编码问题
转:http://gbfd2012.iteye.com/blog/732042 htmlparser在提取网站内容时,有时会出现乱码或者是编码不能转换的问题。这是htmlparser的一个小bug,因为htmlparser作为一个开源软件已经很长时间没有更新了。 org.htmlparser.util.EncodingChangeException: character mismatch (...原创 2010-12-04 20:46:56 · 202 阅读 · 0 评论