nutch二次开发之hadoop和hbase开发环境搭建

16人阅读 评论(0) 收藏 举报
分类:

因为nutch存储需要hadoop和hbase,所以先把hadoop和hbase安装起来。
网上有许多通过Cygwin来搭建hadoop开发环境其实没有必要,在hadoop官方文档中已经说hadoop2.x版本的hadoop没有必要也不支持Cygwin。官方文档(Do not attempt to run the installation from within Cygwin. Cygwin is neither required nor supported.)这一点我差一点就入坑了,刚开始我不死心就翻文档,发现了这句话。

hadoop安装环境搭建

1、Starting a Single Node (pseudo-distributed) Cluster
1.1首先编辑hadoop-env.cmd ,把下列内容添加到文件末尾

set HADOOP_PREFIX=c:\deploy #hadoop安装根目录
set HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin

1.2编辑core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/D:/hadoop2.5.2/tmp</value>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

1.3编辑hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <name>dfs.namenode.name.dir</name>
<value>file:/D:/hadoop2.5.2/tmp/namenode</value>
</property>
<property>
<name>dfs.datanode.name.dir</name>
<value>file:/D:/hadoop2.5.2/tmp/datanode</value>
</property>
</configuration>

1.4编辑slaves文件

查看文件中是否有localhost没有的话,添加localhost。

1.5编辑mapred-site.xml

    <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
   </property>
   <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9001</value>
    </property>

1.6编辑yarn-site.xml

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

接下的启动hadoop和linux中一样,唯一有不同的地方,就是启动hadoop 后会弹出4个cmd窗口,这个窗口不能关闭,关闭会导致hadoop停止。

hbase安装

1.编辑hbase-env.cmd
添加set JAVA_HOME=D:\PROGRA~1\jdk #如果java安装路径在program file文件夹下,不能直接复制路径,要把program file替换成PROGRA~1,否则报错。
2.编辑hbase-site.xml

<property>
        <name>hbase.rootdir</name>
        <value>hdfs://localhost:9000/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>false</value>
    </property>
    <property>
        <name>hbase.master</name>
        <value>localhost:60000</value>
    </property>

如果启动hbase之后,
报log4j:Could not find value for key log4j.appender.DRFAS的错误
编辑log4j.properties,添加以下代码

log4j.appender.DRFAS=org.apache.log4j.DailyRollingFileAppender
log4j.appender.DRFAS.File=${hbase.log.dir}/hbase.security.DRFAS.log
log4j.appender.DRFAS.layout=org.apache.log4j.PatternLayout  
log4j.appender.DRFAS.layout.ConversionPattern=%d{ISO8601} %p %c: %m%n

上面同样在hadoop和hbase启动之后,都会弹出cmd窗口,这个窗口不能关闭,关闭之后,相应的服务程序就会关闭。这个地方我也不知道解决办法。希望知道的同学能在评论里告诉我!^_^

一段时间后…….
经过后来自己的测试并不能行得通,因为运行环境是window,而hadoop,hbase,nutch涉及到对文件的操作时linux和window的命令不同,导致报错!异常烦恼。例如hadoop 的 /bin/hdfs dfs -ls 查看hdfs文件查看不了。但是程序运行没有问题,我也不知道怎么解决这个问题。所以这种方案果断放弃。

查看评论

Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

  • 2014年12月23日 15:52
  • 20KB
  • 下载

一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,...
  • longshenlmj
  • longshenlmj
  • 2014-10-08 11:22:18
  • 2500

[Nutch]Hadoop单机伪分布式模式的使用(deploy)

在上一篇博文我们对Nutch进行了hadoop的配置,那么本文就对nutch的deploy模式的使用进行说明。...
  • Kandy_Ye
  • Kandy_Ye
  • 2016-05-22 10:53:57
  • 3669

【Apache Nutch系列】Nutch2.2+hadoop+hbase+zookeeper环境部署

1、下载数据包 wget http://archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gz wget http://arc...
  • WeiJonathan
  • WeiJonathan
  • 2013-08-22 13:26:28
  • 4636

搭建Hadoop2.6+Hbase0.98.6+Nutch2.3环境

编译Nutch并抓取网页
  • q79969786
  • q79969786
  • 2015-05-20 23:35:59
  • 1766

【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】

1、下载相关软件,并解压 版本号如下: (1)apache-nutch-2.2.1 (2) hadoop-1.2.1 (3)hbase-0.92.1 (3)solr-4.9.0 并解压至/usr...
  • jediael_lu
  • jediael_lu
  • 2015-01-24 17:24:39
  • 25951

基于Nutch和Hadoop的简易搜索引擎

最近和寝室的同学一起搭建了Hadoop的集群,实现了一个简易的本地搜索引擎,并且将其开源到了github上:https://github.com/ifuding/search-1047,接下来的几篇博...
  • dingzuoer
  • dingzuoer
  • 2015-04-22 15:35:16
  • 1392

nutch2.3 hadoop2.6.0 hbase0.98.8 分布式爬虫NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfigurati

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguratio...
  • qq_23280769
  • qq_23280769
  • 2015-09-14 17:43:45
  • 955

集成Nutch2.3.1/Hadoop2.5.2/Hbase1.1.5/Solr4.10.4构建搜索引擎:安装及运行

第一次写博客,之前从来没有写过博客因为不知道要写什么,这次写博客是因为自己在学习东西的时候遇见很多问题,国内的技术资料基本都是比较老的,要不就是nutch2.x集成hadoop1.x的,没有找到集成h...
  • sinat_32383157
  • sinat_32383157
  • 2016-06-02 13:14:04
  • 767

nutch2.0完全分布式部署配置

nutch2.0的分布式环境依赖hadoop-0.20.2和hbase-0.90.*。 测试做在两台机器上,A(master):192.168.20.215,B(slave):192.168.20....
  • lengyue365
  • lengyue365
  • 2012-08-16 16:41:03
  • 2796
    个人资料
    等级:
    访问量: 618
    积分: 95
    排名: 145万+
    文章分类
    文章存档