nutch
twtbgn1984
这个作者很懒,什么都没留下…
展开
-
eclipse中导入nutch源码
1、下载并解压eclipse(集成开发环境) 下载地址:http://www.eclipse.org/downloads/,下载Eclipse IDE for Java EE Developers2、安装Subclipse插件(SVN客户端) 插件地址:http://subclipse.tigris.org/update_1.8.x,3、安装IvyDE插件(下载依赖Jar) 插件地址:http...原创 2013-05-10 16:22:17 · 168 阅读 · 0 评论 -
eclipse中导入nutch源码更新
在前一篇eclipse中导入nutch源码后,发现运行的时候报出各种错误,这里重新记录安装步骤,并测试。安装前准备:eclipse svn插件eclipse ivy插件1. 打开eclipse, File-> New-> Other -> SVN -> 从SVN检出项目 , 选择next2. 创建新的资源位置 -》 Next ,URL输入 htt...原创 2013-05-13 18:01:58 · 113 阅读 · 0 评论 -
nutch 配置文件
nutch中主要的配置文件是nutch-default.xml. nutch启动的时候会读取这个文件,里面基本包含了nutch所有的相关配置,包括不同的plugin在哪些文件中进行定义等在nutch-default.xml中有plugin.includes的属性,在这里面加入你要使用的plugin id,这些pulgin id定义在其他的文件中,比如parse的plugin定义在pars...原创 2013-05-15 15:13:46 · 134 阅读 · 0 评论 -
一起读nutch源码一 -- crawl
crawl:one-step crawler for intranets 一站式的爬取。 也就是将 inject,generate,fetch,parse,updatedb这些都合并到这一个操作中完成。那就从crawl开始研究吧。crawl类在 org.apache.nutch.crawl.Crawl先看main方法: public static void main(Strin...原创 2013-05-15 18:06:29 · 150 阅读 · 0 评论 -
一起读nutch源码 -- injector
inject -- inject new urls into the databaseinject是在整个nutch运行的最初阶段执行,只执行一次,是将指定目录下的url信息注入到crawldb中。inject的运行代码在org.apache.nutch.crawl.Injector 类中,implements Tool, 所以执行中先调用run方法。看看run方法中都做了些什么:...原创 2013-05-29 17:40:37 · 107 阅读 · 0 评论