htmlparser-spider
会飞的五花肉
这个作者很懒,什么都没留下…
展开
-
网络爬虫heritrix
前段时间看了下关于网络爬虫的知识,其中的heritrix是爬虫的优秀代表。heritrix是java的一个开源的可扩展的"爬虫"框架。它可以对互联网上的相应网页进行抓取存档。而搜索引擎丰富数据库的建立,正是利用网络爬虫的抓取。而且heritrix对构建垂直搜索引擎提供了可靠的大量数据。 heritrix的运行有两种。一是可以在cmd环境下配置好jar包的路径和环境变量,二是在Ec...2010-03-19 08:53:32 · 175 阅读 · 0 评论 -
httpclient校内模拟登录CNKI
1.[code="java"]HttpClient httpClient=new HttpClient(); httpClient.getParams().setContentCharset("utf-8"); PostMethod postMetho=new PostMethod("****//要提交的action"); NameValuePair[] pairs=ne...原创 2010-07-08 21:48:12 · 187 阅读 · 0 评论 -
htmlparser的编码问题
htmlparser在提取网站内容时,有时会出现乱码或者是编码不能转换的问题。这是htmlparser的一个小bug,因为htmlparser作为一个开源软件已经很长时间没有更新了。org.htmlparser.util.EncodingChangeException: character mismatch (new: 中 [0x4e2d] != old: [0xd6?]) fo...原创 2010-08-08 13:32:02 · 427 阅读 · 0 评论 -
抓取防爬虫的网站信息
有的网站限制网络爬虫的抓取,例如javaeye。会出现错误提示:您可能使用了网络爬虫抓取JavaEye网站页面! JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取,请您立刻停止该抓取行为! 如果您的网络爬虫不属于恶意抓取行为,希望JavaEye网站允许你进行网页抓取,请和JavaEye管理员联系,取得授权: webmast...原创 2010-08-08 20:32:09 · 151 阅读 · 0 评论 -
htmlparser分析网页链接时的问题
利用htmlparser在解析网页的url链接时,我们想提取指定标签下的链接。例如:div id=wrap下的链接,可以通过下面代码实现:[code="java"]Parser parser = new Parser(url);NodeFilter nodefilter1=new AndFilter(new TagNameFilter(nodename),new HasAttr...原创 2010-06-06 09:57:05 · 129 阅读 · 0 评论 -
判断网页的编码
判断网页的编码我们主要是为了在解析网页时出现一些乱码问题。主要用到了两个jar包chardet.jar和cpdetector_1.0.7.jar。具体的使用如下: [code="java"]public class BianMa { public static void main(String[] args){ String path="";...原创 2010-06-22 15:41:28 · 172 阅读 · 0 评论