nutch
Torres
积累 成长
展开
-
nutch2.0的学习之路-导入eclipse 缺少jar包
1. Nutch2.0源码导入Eclipse jar包找不到的情况: 根据http://blog.csdn.net/leoleocmm/article/details/8668566的描述我们把nutch2.0的源码导入eclipse,这时候我们遇到的问题应该是有若干maven jar包没有下载下来,这个没有什么好办法,只能是去网上找一下,然后放到.m2所在的文件夹中,这个时候可以根据下图的报错原创 2013-03-07 20:46:22 · 770 阅读 · 0 评论 -
eclipse中调试nutch2.0+cassandra
eclipse中调试nutch2.0+cassandra 分类: Nutch 搜索引擎 Cassandra 学习nutch首先我们需要下载它的源码,然后导入eclipse使其能够先跑起来,下文是引用了一个博友整理的导入eclipse的方法:(代码来自GitHub) 很早官方就开始了nutch2.0的研发,而一直都是两线同时研发的,一个是普通版,一个是转载 2013-03-13 15:01:12 · 657 阅读 · 0 评论 -
nutch2.0 配置文件(nutch-default.xml)关键配置详解
配置1: http.content.limit 65536 The length limit for downloaded content using the http protocol, in bytes. If this value is nonnegative (>=0), content longer than it will be truncated; other原创 2013-03-19 14:16:06 · 1528 阅读 · 0 评论 -
nutch2.0 分布式环境配置
前提条件: 1. Hadoop 环境 2. cassandra数据库 3.JDK 1.6 以上 当确保以上环境配置完成后,下面介绍下怎么在hadoop环境部署nutch2.0: nutch1.3以后nutch的分布式配置就非常的简单,我们只需要把eclipse中调试好的源代码Ant编译打包后,把build文件下的nutch-2.0.job拷贝到其中一个节点上(当然还包括runtime/d原创 2013-03-19 14:28:22 · 702 阅读 · 0 评论 -
nutch2.0 FetcherJob之重写Partition详解
Fetch阶段重写Partition方法,是为了实现按照Host或者IP把url分到特定的Reducer. 具体代码如下: public static class FetchEntryPartitioner extends Partitioner implements Configurable { private URLPartitioner partitioner =原创 2013-03-19 15:22:27 · 747 阅读 · 0 评论 -
nutch 在Fetch 阶段的操作细节(待续)
set "fetcher.parse" to true so that parsing happens along with fetching. This should be a time saver for overall nutch crawl cycle 设置fetcher.parse参数为true,这样在fetch阶段就可以执行parse操作。翻译 2013-03-24 13:27:48 · 890 阅读 · 0 评论 -
Nutch2.0 HostDb.java 报错
调试nutch2.0源码,发现HostDb.java 中 maximumSize 函数的参数类型在不同版本中是不一样的: cache=CacheBuilder.newBuilder().maximumSize(lruSize) .removalListener(listener).concurrencyLevel(concurrencyLevel)原创 2013-05-05 13:41:13 · 582 阅读 · 0 评论