pwlazy的专栏
与时俱进,开拓创新
登录
注册
全站
当前博客
空间
博客
好友
相册
留言
使用ant驱动nutch crawl
收藏
在windows下 跑nutch crawl必须使用cygwin,没办法的事情,目前nutch只有shell脚本驱动,这多多少少给windows开发者带来一些麻烦,虽然通常情况下,java应用总会部署在unix机器上,即使如此,对于众多在windows上开发 java 应用的开发者来说,不需要装什么其他东西,直接在window环境中就能跑 nutch crawl显得更省力,下面将nutch-0.7.1 bin目录下的nutch shell 脚本直接转换成ant脚本,nutch玩家直接将ant脚本放在nutch-0.7.1下直接运行即可,当然你应该根据你的需求设置一些脚本元素
<
project
name
="nutch-crawl"
default
="crawl"
basedir
="."
>
<
property
name
="lib.dir"
location
="lib"
/>
<
property
name
="conf.dir"
location
="conf"
/>
<
path
id
="project.classpath"
>
<
fileset
dir
="."
includes
="nutch-*.jar"
/>
<
fileset
dir
="lib"
/>
<
pathelement
path
="."
/>
<
pathelement
path
="${conf.dir}"
/>
</
path
>
<
target
name
="crawl"
>
<
echo
>
crwaling starting...
</
echo
>
<
property
name
="JVM.extra.args"
value
="-Xmx1000m"
/>
<
java
classname
="org.apache.nutch.tools.CrawlTool"
classpathref
="project.classpath"
fork
="true"
>
<
jvmarg
line
="${JVM.extra.args}"
/>
<
arg
value
="e:/nutch-0.7.1/urls"
/>
<
arg
value
="-dir"
/>
<
arg
value
="e:/xxcrawled"
/>
<
arg
value
="-depth"
/>
<
arg
value
="2"
/>
<
arg
value
="-threads"
/>
<
arg
value
="10"
/>
</
java
>
<
echo
>
crwaling finished...
</
echo
>
</
target
>
</
project
>
注意上面代码中的<arg>,你可以根据要求设置.
发表于 @
2006年08月01日 23:08:00
|
评论(
loading...
)
新一篇: Dissecting The Nutch Crawler -introduction
|
旧一篇: windows下nutch初探
用户操作
[即时聊天]
[发私信]
[加为好友]
pwlazy
订阅我的博客
pwlazy的公告
文章分类
ajax/js
database
java-infrastructure
java-orm
java-testcase
java-webmvc
linux
methodology
misc
ruby on rails
search engine
翻译
收藏
misc
链接
http://script.aculo.us/
http://www.psytopic.com/
一个藏袍
存档
2009年06月(1)
2008年11月(1)
2008年10月(5)
2008年09月(1)
2008年06月(4)
2008年04月(3)
2008年03月(2)
2008年01月(3)
2007年12月(8)
2007年11月(5)
2007年10月(2)
2007年07月(3)
2007年06月(2)
2007年05月(4)
2007年04月(6)
2007年03月(8)
2007年02月(3)
2007年01月(1)
2006年12月(1)
2006年11月(2)
2006年10月(5)
2006年09月(2)
2006年08月(22)
2006年07月(9)
2006年06月(11)
2006年05月(35)
2006年04月(2)
2006年03月(1)
2005年05月(4)
2005年04月(12)
软件项目交易