crawler
softwarehe
这个作者很懒,什么都没留下…
展开
-
使用eclipse运行和调试nutch1.4
起初参照官网http://wiki.apache.org/nutch/RunNutchInEclipse,有些文字对java不熟悉的人来说根本看不明白,在往上搜索到了一篇文章http://www.douban.com/note/193721760/,里边有个需要翻墙的地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,参照这个地址基原创 2012-03-12 11:36:38 · 1586 阅读 · 0 评论 -
java抛异常
最近有个需求,当发现程序不能按预期执行,需要立即退出并显示错误地点和信息,修改代码后再重新运行。调研了下,用throw RuntimeException异常的方法就可以 public static void throwone() throws RuntimeException { throw new RuntimeException("so board"); }调用的时候不要t原创 2013-04-28 10:43:30 · 863 阅读 · 0 评论 -
java url request参数解析类
httpclient提供了一个,悲剧的是没法下载,只好按照它代码写了个,自己扩展了些:package com.yunzu.jsoup;import java.io.UnsupportedEncodingException;import java.net.URI;import java.net.URISyntaxException;import java.net.URLDecoder;原创 2013-04-27 17:27:54 · 3711 阅读 · 1 评论 -
jsoup小例子
import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class FirstExtract { /** * @param ar原创 2013-04-26 17:48:18 · 1465 阅读 · 0 评论 -
heritrix抓取动态网页mirror修正
http://hi.baidu.com/wocaonibuxing/item/65c79d5de2a7cbccd3e10cf3我的版本是3.1.1的,另外还要注意,需要修改为以下配置 可能每个网站不一样,修改代码对应不同网站才可以转载 2013-04-23 23:38:56 · 1414 阅读 · 0 评论 -
heritrix 3.1.1限制爬取范围
参考这篇文章http://www.verydemo.com/demo_c427_i9456.html虽然说的不知道是哪个版本的,但看很适合3.1.1版本主要配置如下: --> --> --> --> --> # example.com #原创 2013-04-26 23:02:53 · 1849 阅读 · 2 评论 -
Jsoup学习
Jsoup学习作者:heda创建:2013-4-26 最简单的String html = "First parse" + "Parsed HTML into a doc.";Document doc = Jsoup.parse(html);Jsoup会尽量解析文档,即使有错或不规范也尽量解析object model of documentDocument由E原创 2013-04-26 17:49:38 · 1020 阅读 · 0 评论 -
Jsoup处理br
try { Document doc = Jsoup.connect("http://book.sina.cn/prog/wapsite/books/h5/vipc.php?bid=232872&cid=343466&cp=1&sort=asc&PHPSESSID=bd8c678e4c42e771dbaa3ac125aaf009&vt=4").get(); String temp =原创 2013-04-27 13:50:44 · 5126 阅读 · 0 评论 -
WarcReader学习
package com.yunzu.parsewarc;import java.io.IOException;import java.net.MalformedURLException;import java.util.Iterator;import org.archive.io.ArchiveRecordHeader;import org.archive.io.warc.WARCR原创 2013-04-24 17:53:33 · 1361 阅读 · 0 评论 -
centos eclipse配置heritrix 3.1.1
本来应该挺简单的,自己没按官网教程做,走了些弯路。官网的教程地址是https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+in+Eclipse。有个中文的教程参见:http://www.jishuziyuan.com/archive/hapepylife1527/8233893.html1:首先安装好java和eclip原创 2013-04-02 10:45:09 · 1966 阅读 · 2 评论 -
布隆过滤器——Bloom Filter
原文地址:http://imtinx.iteye.com/blog/1290636谷歌的数学之美系列曾经提到过一种数据结构叫做bloomfilter,翻译成中文就是布隆过滤,文中使用布隆过滤器来过滤黑名单。后来我在毕业设计中也用到了它来过滤重复的URL,避免网络爬虫重复抓取。再后来在单位又一次的用到了bloomfilter来过滤用户的重复访问。随着海量数据时代的到来,布隆过滤器应用的场转载 2013-02-18 09:58:38 · 641 阅读 · 0 评论 -
nutch2.1 index with solr 4.0
首先修改ivy/ivy.xml,使其对应的solr库为4.0.0: <dependency org="org.apache.solr" name="solr-solrj" rev="4.0.0" conf="*->default" />在配置solr 4.0时,主要的一点是要使用这个schema.xml:http://nlp.solutions.asia原创 2013-01-25 17:46:28 · 1506 阅读 · 0 评论 -
小试nutch2.1
最近学习机器学习,弄点小数据研究算法对于学习阶段还不错,不过不和实际数据结合总觉得是在玩玩具,因此想抓点数据搞点小应用。nutch有2.1版本了,看介绍还不错,和hbase、gora结合使用,这样抓取数据的分布式存储和处理都一下ok了,那就试试吧。前提我的主机是centos系统,java和hadoop都已安装并正常使用,hadoop是按伪分布式方式部署的。hbase版本使用hbas原创 2013-01-24 17:56:16 · 3006 阅读 · 1 评论 -
heritrix 3.1.1并行抓取
当只抓取一个站点时,由于分配策略的关系,只会有一个线程去抓取,导致队列很大,抓取缓慢,3.0以后增加了parallel queue设置:SurtAuthorityQueueAssignmentPolic下有个parallelQueues打开注释修改这个值就可以原创 2013-06-26 13:57:53 · 1079 阅读 · 0 评论