nutch使用入门

最新推荐文章于 2018-04-07 18:05:00 发布

xiaoqiang

最新推荐文章于 2018-04-07 18:05:00 发布

阅读量1.9k

点赞数 1

分类专栏：学习笔记

学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

基本概念：

crawldb，nutch所处理的所有url信息，包括是否被fetch过，以及url被fetch时间。
linkdb，url links，包括源url和链接文本信息
segments集合，每一个segment是一组fetched的urls单元，segments包括以下子目录：

1. crawl_generate, 将要被抓取 urls集合

2. crawl_fetch, 正在被抓取的每一个url的状态信息

3. content，从每一个url中提取的原生内容

4. parse_text, 从每一个url中解析出来的文本信息

5. parse_date, 从每一个url中解析出来的链接和元数据

6. crawl_parse, 从url中解析出来的url链接，用于更新crawldb

分布执行步骤：

注入爬取所需种子列表，bin/nutch inject crawl/crawldb urls
从crawldb中生成要抓取的url列表，bin/nutch generate crawl/crawldb crawl/segments
根据url抓取网页，bin/nutch fetch data/segments/201507151245
解析网页内容，bin/nutch parse data/segments/201507151245
根据抓取结果更新数据库，bin/nutch updated data/crawldb –dir data/segments/201507151245
反转索引，在建立索引之前，我们首先对所有的链接进行反转，这样我们才可以对页面的来源锚文本进行索引。
```
bin/nutch invertlinks data/linkdb –dir data/segments/201507151245
```

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。