Nutch 一般工作流程

最新推荐文章于 2017-08-22 15:57:54 发布

fengnote

最新推荐文章于 2017-08-22 15:57:54 发布

阅读量577

点赞数

分类专栏： Nutch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cctvchannelv/article/details/23283901

版权

Nutch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

sequence of batch operations

1. inject -> populates CrawlDB from seed list

2. Generate -> Selets URLS to fetch in segment

3. Fetch -> Fetches URLs from segment

4. Parse -> Parses content(text + metadata)

5. UpdateDB -> Updates CroawlDB(new URLs, new status...)

6. InvertLinks -> Build Webgraph

7. SOLR Index -> Send docs to SOLR

8. SOLR Dedup -> Remove duplicate docs based on signature

Repeat steps 2 to 8

Or use the all-in-one crawl script

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch 一般工作流程

sequence of batch operations1. inject -> populates CrawlDB
复制链接

扫一扫

专栏目录

fengnote CSDN认证博客专家 CSDN认证企业博客

码龄13年

22: 原创

110万+: 周排名

202万+: 总排名

6万+: 访问

: 等级

912: 积分

23: 粉丝

12: 获赞

8: 评论

11: 收藏

私信

关注

热门文章

分类专栏

最新评论

Solr In Action 中文版第一章（四、五）
不止鱼: 不错
Solr In Action 中文版第一章（四、五）
xiejielin: 非常感谢，翻译的非常好，省去看英文版的不便。只是下一章要去看原版了。。。。
Solr In Action 中文版第一章 (二)
mujinhuaxiao: 翻译的很到位，赞一个，希望楼主继续！！！
CentOS 更新源
fengnote: c、增加PUIAS安装源 PUIAS Linux是面向桌面和服务器的完整的操作系统，它靠编译Red Hat Enterprise Linux的源代码包来创建。除了这些上游的软件包外，该项目还提供一些其他的软件仓库：“Addons”包含了通常的Red Hat发行中未收入的额外软件包，“Computational”提供专门针对科学计算的软件，“Unsupported”则收入各种各样的测试性软件包。该发行由美国普林斯顿大学的高等研究所维护。创建/etc/yum.repos.d/PUIAS_6_computational.repo，并添加如下内容： [PUIAS_6_computational] name=PUIAS computational Base $releasever - $basearch mirrorlist=http://puias.math.ias.edu/data/puias/computational/$releasever/$basearch/mirrorlist #baseurl=http://puias.math.ias.edu/data/puias/computational/$releasever/$basearch gpgcheck=1 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-puias 下载并安装GPG key $ sudo wget -O /etc/pki/rpm-gpg/RPM-GPG-KEY-puias http://springdale.math.ias.edu/data/puias/6/x86_64/os/RPM-GPG-KEY-puias $ sudo rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-puias 检验下是否安装成功 $ sudo rpm -qa gpg* Tips：安装完EPEL和PUIAS两个源后，可以检测下： $ sudo yum repolist
CentOS 更新源
fengnote: c、增加PUIAS安装源 PUIAS Linux是面向桌面和服务器的完整的操作系统，它靠编译Red Hat Enterprise Linux的源代码包来创建。除了这些上游的软件包外，该项目还提供一些其他的软件仓库：“Addons”包含了通常的Red Hat发行中未收入的额外软件包，“Computational”提供专门针对科学计算的软件，“Unsupported”则收入各种各样的测试性软件包。该发行由美国普林斯顿大学的高等研究所维护。创建/etc/yum.repos.d/PUIAS_6_computational.repo，并添加如下内容： [PUIAS_6_computational] name=PUIAS computational Base $releasever - $basearch mirrorlist=http://puias.math.ias.edu/data/puias/computational/$releasever/$basearch/mirrorlist #baseurl=http://puias.math.ias.edu/data/puias/computational/$releasever/$basearch gpgcheck=1 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-puias 下载并安装GPG key $ sudo wget -O /etc/pki/rpm-gpg/RPM-GPG-KEY-puias http://springdale.math.ias.edu/data/puias/6/x86_64/os/RPM-GPG-KEY-puias $ sudo rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-puias 检验下是否安装成功 $ sudo rpm -qa gpg* Tips：安装完EPEL和PUIAS两个源后，可以检测下： $ sudo yum repolist

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。