pwlazy的专栏
与时俱进,开拓创新
登录
注册
全站
当前博客
空间
博客
好友
相册
留言
windows下nutch0.8初探
收藏
前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。
我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:
<
project
name
="nutch-crawl"
default
="crawl"
basedir
="."
>
<
property
name
="lib.dir"
location
="lib"
/>
<
property
name
="conf.dir"
location
="conf"
/>
<
property
name
="urls.dir"
location
="urls"
/>
<
path
id
="project.classpath"
>
<
fileset
dir
="${lib.dir}"
/>
<
pathelement
path
="${conf.dir}"
/>
<
fileset
dir
="."
includes
="nutch-*.jar"
/>
</
path
>
<
target
name
="crawl"
>
<
echo
>
crwaling starting...
</
echo
>
<
property
name
="JVM.extra.args"
value
="-Xmx1000m"
/>
<
java
classname
="org.apache.nutch.crawl.Crawl"
classpathref
="project.classpath"
fork
="true"
>
<
jvmarg
line
="${JVM.extra.args}"
/>
<
arg
value
="${urls.dir}"
/>
<
arg
value
="-dir"
/>
<
arg
value
="e:/xxcrawled20"
/>
<
arg
value
="-depth"
/>
<
arg
value
="2"
/>
<
arg
value
="-threads"
/>
<
arg
value
="10"
/>
</
java
>
<
echo
>
crwaling finished...
</
echo
>
</
target
>
</
project
>
应该注意2点
1)增加一个目录urls,放入一个文件,文件内容填上你要爬的url
2)修改nutch-site.xml,覆盖http.agent.name属性,一定要填入值
还有一点,如果你使用上面的ant脚本,你必须注意类路径的顺序,
<
pathelement
path
="${conf.dir}"
/>必须位于
<
fileset
dir
="."
includes
="nutch-*.jar"
/>之前。否则jar中的那个空的
nutch-site.xml会取代conf目录下你修改好的nutch-site.xml
至于搜索这个部分没什么好说的
在nutch-site.xml中加入:
<
property
>
<
name
>
searcher.dir
</
name
>
<
value
>
E:\xxcrawled2
</
value
>
</
property
>
value部分填入你crwal时设置的目录
发表于 @
2006年08月23日 23:49:00
|
评论(
loading...
)
新一篇: 使用lucene的多字段排序--回复网友BUFFON
|
旧一篇: windows下架设subversion服务器
用户操作
[即时聊天]
[发私信]
[加为好友]
pwlazy
订阅我的博客
pwlazy的公告
文章分类
ajax/js
database
java-infrastructure
java-orm
java-testcase
java-webmvc
linux
methodology
misc
ruby on rails
search engine
翻译
收藏
misc
链接
http://script.aculo.us/
http://www.psytopic.com/
一个藏袍
存档
2009年06月(1)
2008年11月(1)
2008年10月(5)
2008年09月(1)
2008年06月(4)
2008年04月(3)
2008年03月(2)
2008年01月(3)
2007年12月(8)
2007年11月(5)
2007年10月(2)
2007年07月(3)
2007年06月(2)
2007年05月(4)
2007年04月(6)
2007年03月(8)
2007年02月(3)
2007年01月(1)
2006年12月(1)
2006年11月(2)
2006年10月(5)
2006年09月(2)
2006年08月(22)
2006年07月(9)
2006年06月(11)
2006年05月(35)
2006年04月(2)
2006年03月(1)
2005年05月(4)
2005年04月(12)
软件项目交易