windows下nutch0.8初探

5897人阅读 评论(31) 收藏 举报
 前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。

我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:
<project name="nutch-crawl" default="crawl" basedir=".">
    
    

    
<property name="lib.dir"  location="lib"/>
    
<property name="conf.dir"  location="conf"/>
    
<property name="urls.dir"  location="urls"/>
    

    
    
<path id="project.classpath">
   

        
<fileset dir="${lib.dir}" />
        
<pathelement path="${conf.dir}"/>
        
<fileset dir="." includes="nutch-*.jar"/>
        
    
</path>
    
    
    
<target name="crawl" >
        
<echo>crwaling starting...</echo>
        
<property name="JVM.extra.args" value="-Xmx1000m" />
        
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
            
<jvmarg line="${JVM.extra.args}"/>
            
<arg value="${urls.dir}"/>
            
<arg value="-dir"/>
            
<arg value="e:/xxcrawled20"/>
            
<arg value="-depth"/>
            
<arg value="2"/>
            
<arg value="-threads"/>
            
<arg value="10"/>
        
</java>
        
<echo>crwaling finished...</echo>
    
</target>
    
</project>


应该注意2点
1)增加一个目录urls,放入一个文件,文件内容填上你要爬的url
2)修改nutch-site.xml,覆盖http.agent.name属性,一定要填入值


还有一点,如果你使用上面的ant脚本,你必须注意类路径的顺序, <pathelement path="${conf.dir}"/>必须位于
        
<fileset dir="." includes="nutch-*.jar"/>之前。否则jar中的那个空的nutch-site.xml会取代conf目录下你修改好的nutch-site.xml

至于搜索这个部分没什么好说的
在nutch-site.xml中加入:
<property>
        
<name>searcher.dir</name>
        
<value>E:/xxcrawled2</value>
</property>

value部分填入你crwal时设置的目录
0
0

猜你在找
【直播】机器学习&深度学习系统实战(唐宇迪)
【直播】Kaggle 神器:XGBoost 从基础到实战(冒教授)
【直播回放】深度学习基础与TensorFlow实践(王琛)
【直播】计算机视觉原理及实战(屈教授)
【直播】机器学习之凸优化(马博士)
【直播】机器学习之矩阵(黄博士)
【直播】机器学习之概率与统计推断(冒教授)
【直播】机器学习之数学基础
【直播】TensorFlow实战进阶(智亮)
【直播】深度学习30天系统实训(唐宇迪)
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:912995次
    • 积分:11593
    • 等级:
    • 排名:第1261名
    • 原创:200篇
    • 转载:5篇
    • 译文:14篇
    • 评论:291条
    文章分类
    最新评论