nutch -1.2 command

最新推荐文章于 2024-08-09 21:25:57 发布

Kaiwii

最新推荐文章于 2024-08-09 21:25:57 发布

阅读量1.2k

点赞数

分类专栏：开源搜索引擎（nutch）文章标签： command url 数据库 website hadoop

开源搜索引擎（nutch）专栏收录该内容

15 篇文章 0 订阅

订阅专栏

nutch.job 文件的使用：

hadoop jar nutch-1.2.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1

抓取

bin/nutch crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file>.log

steps in
1.读取urls目录下的站点添加到crawldb里
bin/nutch inject <dir>/crawldb urls
2.创建一个segments,存放到目录下
bin/nutch generate <dir>/crawldb <dir>20090519/segments
3.根据文件夹下生成的下载列表获取页面内容
bin/nutch fetch <dir>/segments/<newdir>/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch updatedb dir/crawldb dir/segments/newdir
5.分析链接关系,生成反向链接
bin/nutch invertlinks dir/linkdb -dir dir/segments
6.创建页面内容索引
bin/nutch index dir/indexes dir/crawldb dir/linkdb dir/segments/newdir
7.删除重复数据
bin/nutch dedup dir/indexes
8.合并索引文件
bin/nutch merge dir/index dir/indexes

读取命令 (d for <dir>, w for a website url)
1.查看crawldb数据库：bin/nutch readdb dir/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
  导出权重和相关的url信息：bin/nutch readdb d/crawldb/ -topN 20 urldb(out_dir)
  查看每个url地址的详细内容，导出数据：bin/nutch readdb d/crawldb/ -dump crawldb(out_dir)
  查看具体的url：bin/nutch readdb d/crawldb/ -url w
2.查看linkdb数据库的链接情况：bin/nutch readlinkdb d/linkdb/ -url w
  导出linkdb数据库文件：bin/nutch readlinkdb d/linkdb/ -dump linkdb(out_dir)
3.查看segments：bin/nutch readseg -list -dir d/segments/ 可以看到每一个segments的名称，产生的页面数，抓取的开始时间和结束时间，抓取数和解析数。
导出segments：bin/nutch readseg -dump d/segments/nd segdb(out_dir)

man:输入bin/nutch查看

Kaiwii

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch -1.2 command

nutch.job 文件的使用：hadoop jar nutch-1.2.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 抓取 bin/nutch crawl urls -dir -depth
复制链接

扫一扫

专栏目录