NUTCH
iteye_8793
这个作者很懒,什么都没留下…
展开
-
NUTCH中的not in gzip format异常处理
Nutch爬虫爬取某网页是出现下列异常:ERROR http.Http (?:invoke0(?)) - java.io.IOException: unzipBestEffort returned nullERROR http.Http (?:invoke0(?)) - at org.apache.nutch.protocol.http.api.HttpBase.processGzipEnco...原创 2011-06-10 18:18:19 · 163 阅读 · 0 评论 -
nutch的一些分析
之前对nutch进行些分析,打算在基础上进行一些应用,不过最近忙着,也没弄出个所以然,先把阅读心得贴出来,里边可能有不少理解上的错误,仅供参考用,万一突然有人转载了,请保留blog出处 。也希望能认识跟多对此话题感兴趣的朋友。 主要类分析:一、org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,...原创 2011-12-11 22:08:04 · 116 阅读 · 0 评论