nutch
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
nutch 学习笔记
Q: 我有个疑问,抓取进程结束了,为什么有那么多URL没请求 是不是跟我的抓取depth有关? A: crawldb里面有大量的URL,你每一次执行crawl命令,只会抓一部分(topN控制) 每一次抓取,都会发现很多新的outlinks 所以crawldb里面一般来说都会有很多unfetched的URL Q: topN后的参数用来指定本次fetch数量? A: Y Q:原创 2013-04-04 22:35:02 · 811 阅读 · 0 评论 -
nutch readdb -stats中5个状态的含义
成功抓取完成之后,运行bin/nutch readdb data/crawldb -stats,可以查看抓取的统计信息: TOTAL urls: 1843 retry 0: 1838 retry 1: 5 min score: 0.0 avg score: 5.425936E-4 max score: 1.0 s原创 2013-04-04 22:23:01 · 1412 阅读 · 0 评论