Nutch第一次搭建部署总结

本文介绍了如何在单机环境下配置并使用HBase、Hadoop、Solr与Nutch进行数据抓取、存储、索引和管理。详细解释了各组件的功能与配置方法,包括HBase的配置、Hadoop的部署、Solr的启动及Nutch的抓取流程。通过实例指导读者完成从数据抓取到存储、索引的全过程。
摘要由CSDN通过智能技术生成

首先按照教程http://blog.csdn.net/fonxian/article/details/48522479
安装HBase,安装的过程中发现搭建Nutch需要其他额外的几样工具,HBase、ZooKeep、Hadoop、Solr
,它们的分工是,Nutch负责抓取数据,HBase则负责将数据存储起来,Solr是负责建立索引,Hadoop则是为Nutch和HBase提供一个分布式的环境,面对大的数据量的时候,将抓取和存取工作分配给多个计算机来完成

一、HBase

1、HBase的配置信息主要在hbase-env.sh和hbase-site.xml两个文件,下面的是在单机环境下对hbase-site.xml的配置,中的目录,是以后HBase写数据的地方。如果不特殊配置,则会默认配置到/tmp下

<property>
    <name>hbase.rootdir</name>
    <value>file:///DIRECTORY/hbase</value>
  </property>

2、将hbase写入环境变量

export HBASE_HOME=/root/habse

3、启动

./bin/start-hbase.sh

如果有提醒master running as process 25744. Stop it first.,说明HBase已经在运行中了,要关闭使用命令
jps,进程名为HMaster即为HBase的进程,使用kill+进程号,即可关闭HBase
4、创建表

root@fonxian-desktop:~/hbase/bin# ./hbase shell
hbase(main):001:0> create "mytable","row1"

二、Hadoop

部署方法
Hadoop —— Ubuntu单机环境部署Hadoop1.2.1
http://blog.csdn.net/fonxian/article/details/48519041

三、Solr

下载好Solr之后,输入下面的命令,即可,它要一直运行着,所以不要以为它自己会终止,就像在ubuntu下运行eclipse是一样的,终端要始终开着。

cd example
java -jar start.jar

四、Nutch

Nutch的配置文件都放在conf下,配置好之后,需要ant runtime,将nutch重新编译
Nutch的存储采用Gora来HBase、MySQL等,可以在ivy/ivy.xml中配置,选用自己想用的数据库

抓取的过程
1) 建立初始 URL 集
2) 将 URL 集注入 crawldb 数据库—inject
3) 根据 crawldb 数据库创建抓取列表—generate
4) 执行抓取,获取网页信息—fetch
5) 解析抓取的内容—parse segment
6) 更新数据库,把获取到的页面信息存入数据库中—updatedb
7) 重复进行 3~5 的步骤,直到预先设定的抓取深度。—这个循环过程被称为“产生/抓取/更新”循环
8) 根据 sengments 的内容更新 linkdb 数据库—invertlinks
9) 建立索引—index

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值