Hadoop-Nutch学习整理（持续更新）

最新推荐文章于 2024-04-20 23:46:34 发布

迪塔维

最新推荐文章于 2024-04-20 23:46:34 发布

阅读量823

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dataonv/article/details/41482731

版权

本文介绍了Hadoop Nutch的爬虫流程，重点讲解了Crawldb（存储待抓取的URL及下载信息）和Linkdb（存储超链接及其连入地址和锚文本）。在segments目录下，按照深度设置生成多个子文件夹，分别存储不同阶段的数据，如fetch状态、解析出的链接和内容等。

摘要由CSDN通过智能技术生成

Nutch学习整理

第一部分单机尝试

1、安装部署

Nutch的部署和其他Hadoop生态产品的部署流程基本相似：下载软件，上传到服务器，解压文件，修改配置文件。网上有很多类似资料，不再赘述。

Nutch的配置文件主要有两个：

domain-urlfilter.txt

是用来配置所爬取网站的范围，域名和它的子网页的正则表达式，类似于爬取规则。一般配置为：

# accept hosts in MY.DOMAIN.NAME

+^http: //([a-z0-9]*\.)*MY.DOMAIN.NAME/

nutch-site.xml

这类似于对我要爬取的网站进行一下声明，不声明的话，会导致爬取失败。

2、单机主要爬取命令

简单命令格式，不赘述。

bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]

3、爬取结果解析

nutch 爬取下来的网页信息，保存路径格式如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

迪塔维 CSDN认证博客专家 CSDN认证企业博客

码龄11年

48: 原创

74万+: 周排名

215万+: 总排名

15万+: 访问

: 等级

2062: 积分

39: 粉丝

15: 获赞

8: 评论

48: 收藏

私信

关注

热门文章

分类专栏

BIEE11G 25篇
数据仓库 1篇
行业案例 1篇
商业智能 4篇
ODI 4篇
大数据 6篇
数据挖掘 2篇
endeca 4篇
OSB 7篇
SOA 3篇
Linux 2篇

最新评论

OHS简单安装与系统配置
Too optimistic: 文章当中没有图片呀，请教一下（$ORACLE_INSTANCE/bin/opmnctl status）$ORACLE_INSTANCE指的是什么啊
第三方系统通过IFrame的方式访问BIEE报表
qq_40203739: 集成12c的bip报表url，知道怎么设置吗，急用，谢谢。
BIEE EM 报错 ADF_FACES-60097 的解决方法
m0_43416652: 做完了没有自动生成，但是错误被解决了
Biee 迁移和刷新GUIDs
JustDI-CM: 哈喽，博主，我这看不了图片，是不是图片资源坏了，谢谢
数据仓库的大数据集成
山水佳音: 数据仓库不是和大数据集成，而是大数据仓库，用大数据来重构数据仓库。这样做有如下好处： 1、利用大数据的无与伦比的扩展性，解决了传统数据仓库的容量和扩展性问题； 2、利用大数据的强大执行能力，彻底解决传统数据仓库复杂的数据架构和ETL过程中的繁冗处理； 3、利用大数据生态软件，解决商业软件各管一段难以整合的问题。最终是搭建一站式的端到端的大数据仓库系统。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。