nutch相关目录说明

最新推荐文章于 2016-09-07 01:48:24 发布

ATCO

最新推荐文章于 2016-09-07 01:48:24 发布

阅读量661

点赞数

分类专栏： nutch

nutch 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Nutch数据包含3个目录结构，分别是：

1、Crawldb:用于存储Nutch将要检索的url信息，以及检索状态(是否检索、何时检索)

2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)

3、Segments:一组url的集合，他们作为一个检索单元，可用于分布式检索

Segment目录包含以下子目录信息:

(1) crawl_generate:定义将要检索的url集合(文件类型为SequenceFile)

(2) crawl_fetch:存储每一个url的检索状态(文件类型为MapFile)

(3) content:存储每一个url所对应的二进制字节流(文件类型为MapFile)

(4) parse_text:存储每一个url所解析出的文本内容(文件类型为MapFile)

(5) parse_data:存储每一个url所解析出的元数据(文件类型为MapFile)

(6) crawl_parse:用于及时更新crawldb中的内容(如要检索的url已不存在等情况)--文件类型为SequenceFile

注：结合Nutch的数据结构和组件结构来看，crawldb相当于WebDB，而segment相当于是fetchlists.

分布式crawl过程中，每个MapReduce Job都会生成一个segment，名称以时间来命名

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch相关目录说明

Nutch数据包含3个目录结构，分别是：1、Crawldb:用于存储Nutch将要检索的url信息，以及检索状态(是否检索、何时检索)2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)3、Segments:一组url的集合，他们作为一个检索单元，可用于分布式检索Segment目录包含以下子目录信息:(1) crawl_generate:
复制链接

扫一扫

专栏目录

ATCO CSDN认证博客专家 CSDN认证企业博客

码龄21年

82: 原创

4万+: 周排名

2万+: 总排名

110万+: 访问

: 等级

3940: 积分

190: 粉丝

142: 获赞

54: 评论

363: 收藏

私信

关注

热门文章

分类专栏

最新评论

CentOS7上安装Squid代理详细教程
weixin_45271405: 默认安装会存在大量漏洞，需要进行升级
LINUX 安装JAVA
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
Linux部署bitcoin core（核心钱包）
hackferances: 希望博主有方法解决
Linux部署bitcoin core（核心钱包）
hackferances: 到了第3步，我输入[code=plain] systemctl status bitcoind.service [/code]却报错了以下内容： [code=plain] Job for bitcoind.service failed because the control process exited with error code. See "systemctl status bitcoind.service" and "journalctl -xe" for details. [/code]我输入了这两个命令，输出结果分别是： [code=plain] bitcoind.service - Bitcoin deamon service Loaded: loaded (/etc/systemd/system/bitcoind.service;enabled; vendor pres> Active: activating (auto-restart) (Result: exit-code) since Sun 2024-03-10> Process: 5255 ExecStart=/wallet/bitcoin/bitcoin-0.18.1/bin/bitcoind -daemon [/code] 和 [code=plain] -- The job identifier is 6591. 3月 10 15:57:48 ubuntu systemd[5317]: bitcoind.service: Failed to execute comma> 3月 10 15:57:48 ubuntu systemd[5317]: bitcoind.service: Failed at step EXEC spa> -- Subject: Process /wallet/bitcoin/bitcoin-0.18.1/bin/bitcoind could not be ex> -- Defined-By: systemd -- Support: http://www.ubuntu.com/support -- -- The process /wallet/bitcoin/bitcoin-0.18.1/bin/bitcoind c [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。