Nutch第一次搭建部署总结

最新推荐文章于 2024-09-11 12:52:00 发布

睿智的河水

最新推荐文章于 2024-09-11 12:52:00 发布

阅读量2.2k

点赞数

分类专栏： HADOOP Nutch实战文章标签： nutch

本文链接：https://blog.csdn.net/fonxian/article/details/48528297

版权

HADOOP 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Nutch实战

4 篇文章 1 订阅

订阅专栏

本文介绍了如何在单机环境下配置并使用HBase、Hadoop、Solr与Nutch进行数据抓取、存储、索引和管理。详细解释了各组件的功能与配置方法，包括HBase的配置、Hadoop的部署、Solr的启动及Nutch的抓取流程。通过实例指导读者完成从数据抓取到存储、索引的全过程。

摘要由CSDN通过智能技术生成

首先按照教程http://blog.csdn.net/fonxian/article/details/48522479
安装HBase,安装的过程中发现搭建Nutch需要其他额外的几样工具，HBase、ZooKeep、Hadoop、Solr
，它们的分工是，Nutch负责抓取数据，HBase则负责将数据存储起来，Solr是负责建立索引，Hadoop则是为Nutch和HBase提供一个分布式的环境，面对大的数据量的时候，将抓取和存取工作分配给多个计算机来完成

一、HBase

1、HBase的配置信息主要在hbase-env.sh和hbase-site.xml两个文件，下面的是在单机环境下对hbase-site.xml的配置，中的目录，是以后HBase写数据的地方。如果不特殊配置，则会默认配置到/tmp下

<property>
    <name>hbase.rootdir</name>
    <value>file:///DIRECTORY/hbase</value>
  </property>

2、将hbase写入环境变量

export HBASE_HOME=/root/habse

3、启动

./bin/start-hbase.sh

如果有提醒master running as process 25744. Stop it first.,说明HBase已经在运行中了，要关闭使用命令
jps，进程名为HMaster即为HBase的进程，使用kill+进程号，即可关闭HBase
4、创建表

root@fonxian-desktop:~/hbase/bin# ./hbase shell
hbase(main):001:0> create "mytable","row1"

二、Hadoop

部署方法
Hadoop —— Ubuntu单机环境部署Hadoop1.2.1
http://blog.csdn.net/fonxian/article/details/48519041

三、Solr

下载好Solr之后，输入下面的命令，即可，它要一直运行着，所以不要以为它自己会终止，就像在ubuntu下运行eclipse是一样的，终端要始终开着。

cd example
java -jar start.jar

四、Nutch

Nutch的配置文件都放在conf下，配置好之后，需要ant runtime，将nutch重新编译
Nutch的存储采用Gora来HBase、MySQL等，可以在ivy/ivy.xml中配置，选用自己想用的数据库

抓取的过程
1) 建立初始 URL 集
2) 将 URL 集注入 crawldb 数据库—inject
3) 根据 crawldb 数据库创建抓取列表—generate
4) 执行抓取，获取网页信息—fetch
5) 解析抓取的内容—parse segment
6) 更新数据库，把获取到的页面信息存入数据库中—updatedb
7) 重复进行 3～5 的步骤，直到预先设定的抓取深度。—这个循环过程被称为“产生/抓取/更新”循环
8) 根据 sengments 的内容更新 linkdb 数据库—invertlinks
9) 建立索引—index