windows下nutch0.8初探

原创 2006年08月23日 23:49:00
 前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。

我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:
<project name="nutch-crawl" default="crawl" basedir=".">
    
    

    
<property name="lib.dir"  location="lib"/>
    
<property name="conf.dir"  location="conf"/>
    
<property name="urls.dir"  location="urls"/>
    

    
    
<path id="project.classpath">
   

        
<fileset dir="${lib.dir}" />
        
<pathelement path="${conf.dir}"/>
        
<fileset dir="." includes="nutch-*.jar"/>
        
    
</path>
    
    
    
<target name="crawl" >
        
<echo>crwaling starting...</echo>
        
<property name="JVM.extra.args" value="-Xmx1000m" />
        
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
            
<jvmarg line="${JVM.extra.args}"/>
            
<arg value="${urls.dir}"/>
            
<arg value="-dir"/>
            
<arg value="e:/xxcrawled20"/>
            
<arg value="-depth"/>
            
<arg value="2"/>
            
<arg value="-threads"/>
            
<arg value="10"/>
        
</java>
        
<echo>crwaling finished...</echo>
    
</target>
    
</project>


应该注意2点
1)增加一个目录urls,放入一个文件,文件内容填上你要爬的url
2)修改nutch-site.xml,覆盖http.agent.name属性,一定要填入值


还有一点,如果你使用上面的ant脚本,你必须注意类路径的顺序, <pathelement path="${conf.dir}"/>必须位于
        
<fileset dir="." includes="nutch-*.jar"/>之前。否则jar中的那个空的nutch-site.xml会取代conf目录下你修改好的nutch-site.xml

至于搜索这个部分没什么好说的
在nutch-site.xml中加入:
<property>
        
<name>searcher.dir</name>
        
<value>E:/xxcrawled2</value>
</property>

value部分填入你crwal时设置的目录

Windows下Socket编程初探

前端时间公司需要开发一个使用Socket的程序,就抽空研究了一下Windows下的Socket编程,刚刚接触这方面的知识,特写博客记录下开发过程的点滴        声明:程序中不是使用纯正的C语言或...
  • gxwzmm
  • gxwzmm
  • 2013年11月27日 14:46
  • 1072

Windows Azure案例分析: 选择虚拟机或云服务?

作者 王枫 发布于 2013年6月27日
  • azurechina
  • azurechina
  • 2014年11月23日 18:09
  • 1621

黑客入侵 - 认识黑客入侵的利器 嗅探软件

嗅探器(也称网络分析器)是种能够察看网络传输、将其解码并为网管提供可用的数据的一种软件。网管可以使用它提供的数据来诊断网络存在的问题。而恶意用户还会利用嗅探器来从网络上获取存储在文本中的密码。下面列举...
  • linxingqianglai
  • linxingqianglai
  • 2016年03月30日 19:16
  • 6144

Nutch 0.8笔记--Google式的搜索引擎实现

作者:江南白衣     Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化...
  • jeff06143132
  • jeff06143132
  • 2012年01月10日 20:54
  • 1289

Nutch 0.8笔记--Google式的搜索引擎实现

  作者:江南白衣    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户...
  • maikforever
  • maikforever
  • 2011年05月24日 09:28
  • 1346

nutch tutorials0.8

  • 2007年04月26日 00:11
  • 25KB
  • 下载

Nutch 0.8笔记NUTCHNUTCH

  • 2009年08月27日 17:20
  • 175KB
  • 下载

OpenCV初探:一、windows桌面程序示例源代码

  • 2016年06月29日 16:21
  • 4KB
  • 下载

firefox-0.8版的windows执行程序

  • 2013年07月28日 22:00
  • 6.22MB
  • 下载

nutch在windows下myeclipse中安装配置并且运行教程

  • 2013年02月25日 10:48
  • 1.31MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:windows下nutch0.8初探
举报原因:
原因补充:

(最多只允许输入30个字)