浅析爬虫nutch2.0(二)

本系列是从零开始学习使用nutch。

1)java安装

      nutch使用java开发,因此首先需要安装JDK,Ubuntu下安装方法,包括环境变量的设置,资料很多,这里不详细介绍了。

2)ant安装和nutch构建

      ant是构建工具,支持插件机制,和maven类似,hadoop等各种分布式开源系统目前均使用maven进行管理构建,本人也不是很明白nutch为什么使用的仍然为ant而不是maven。

      下载nutch源码,有两种方式,1)github下载;2)nutch官网下载。下载后解压在代码根目录下有build.xml文件,该文件即为ant的构建文件,该文件中分为各种target,每一个target对应一个构建任务类型,ant加上target name即可执行对应的target。如想生成可执行文件包,执行命令$:ant package-bin即可。

      代码根目录下有个ivy文件夹,里面有个文件ivysettings.xml,该文件中配置的是各种nutch依赖jar包的下载地址。很多地址的访问速度比较慢或者无法访问,即会导致ant构建时下载jar包失败,所以需要翻墙下载,或者修改下载地址。但修改地址过于麻烦,笔者没有仔细研究过,通过翻墙方式解决了构建时下载jar包问题。

      $:ant package-bin执行完成后,在nutch的根目录下即可发现新增apache-nutch-2.3.1-bin文件夹


3)nutch依赖环境和组件安装

      hadoop、hbase

      前面提到,nutch运行依赖的数据库选择hbase,因此首先需要安装hadoop、hbase,两个的安装方式可以分为完全分布式和伪分布式。笔者在工作中有相关的硬件条件,安装和实践过完整的分布式模式的hadoop、hbase,在个人电脑上没有条件,使用的是伪分布模式。

     安装和运行hadoop、hbase注意,在hadoop2.x之后,支持HA模式的安装配置,即存在两个master节点,hbase同理,看其他文章提到hbase的版本注意选择0.92,高版本的hbase可能导致nutch运行错误,还未验证过。

    无论是完全分布式和伪分布式,相关的资料很多,这里不详细介绍。

   hadoop伪分布模式安装:

   1)安装和ssh本地免密码连接

   2)修改core-site.xml、hdfs-site.xml文件

  3)格式化namenode,hdfs namenode -format

  4)启动hdfs,start-dfs.sh



     hbase伪分布模式安装:

     1)修改conf目录下hbase-site.xml和hbase-env.sh文件

      

     

            

    2)启动和运行hbase

     

    

     solr

    nutch使用solr作为索引和检索系统,配置scheme.xml文件,替换掉solr目录下的该文件即可,scheme.xml文件详细的配置,笔者正在研究。

    solr同样可以配置安装单机版和分布式版,分布式称为solr cloud,和单机版的基本区别是solr cloud将同一份索引存储在不同的机器上,可以增强安全性,以及实现负载均衡。两者的安装和配置同样存在很多相关资料。

   tomcat

   tomcat的安装较为简单,无需修改配置,下载压缩包,解压到想要安装的目录即可。tomcat的启动停止命令为:catalina.sh start、catalina.sh stop。启动后,http://localhost:8080即可打开tomcat的主页。


总结:将nutch依赖的环境全部安装运行正常完毕后,可以说基本上运行nutch,抓取网页数据存储和检索,成功了一大半,剩下的需要做的是配置nutch。

            笔者在工作中有一段时间安装、维护运行hadoop、hbase、solr、zookeeper等等这些分布式服务,但因为工作资料保密原因,这些资料并未在自己的PC中,因此不能在这里及时共享。 

            后续笔者将hadoop、hbase、solr的安装运行总结上传。

   


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值