nutch1.9 的crawl脚本中有一段代码
# set the number of slaves nodes
numSlaves=1
# and the total number of available tasks
# sets Hadoop parameter "mapred.reduce.tasks"
numTasks=`expr $numSlaves \* 2`
# number of urls to fetch in one iteration
# 250K per task?
sizeFetchlist=`expr $numSlaves \* 100`
# time limit for feching
timeLimitFetch=180
# num threads for fetching
numThreads=50
#############################################
numThreads=50为默认开启线程数
其中将你要输入topN的值替换掉红色的数字,保存。这样,当你再通过启动脚本启动时默认topN就会改为你自己定义的值
此设置仅限1.9版本和1.8 版本,这两个版本bin/nutch 中没有crawl命令,无法通过脚本设置topN。