nutch1.0各种命令

最新推荐文章于 2024-11-01 12:20:35 发布

Curry曰天

最新推荐文章于 2024-11-01 12:20:35 发布

阅读量1.9k

点赞数

分类专栏： nutch 文章标签：数据库 url merge 互联网

本文链接：https://blog.csdn.net/ninjuli/article/details/4201055

版权

nutch 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

局域网抓取

bin/nutch crawl urls -dir 20090519 -depth 1 -topN 50 -threads 2 >& nutch.log

互联网抓取命令(注：1.0版本的命令和以前版本有许多不一样)

1.读取urls目录下的站点添加到crawldb里
bin/nutch inject 20090519/crawldb urls
2.创建一个segments,存放到20090519目录下
bin/nutch generate 20090519/crawldb 20090519/segments
3.根据文件夹20090519102635下生成的下载列表获取页面内容
bin/nutch fetch 20090519/segments/20090519102635/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch updatedb 20090519/crawldb 20090519/segments/20090519102635
5.分析链接关系,生成反向链接
bin/nutch invertlinks 20090519/linkdb -dir 20090519/segments
6.创建页面内容索引
bin/nutch index 20090519/indexes 20090519/crawldb 20090519/linkdb 20090519/segments/20090519102635
7.删除重复数据
bin/nutch dedup 20090519/indexes
8.合并索引文件
bin/nutch merge 20090519/index 20090519/indexes